갤러리 이슈박스, 최근방문 갤러리
연관 갤러리
기타 미국드라마 갤러리 타 갤러리(0)
이 갤러리가 연관 갤러리로 추가한 갤러리
0/0
타 갤러리 기타 미국드라마 갤러리(0)
이 갤러리를 연관 갤러리로 추가한 갤러리
0/0
개념글 리스트
1/3
- 김해공항서 에어부산 항공기 화재…176명 전원대피 ㅇㅇ
- 진지진지 이거 다 알면 틀딱임? 러시아살아용
- 안철수 "이재명 위헌법률심판 검토? 현행법상 유죄임을 고백한 격" 사피엔스
- (스압)눈오는 무의도 국사봉 백패킹 후기 수색머신
- 지난 10년간 대통령들이 보낸 설 선물들 jpg 野獣先輩
- 싱글벙글 다른나라 사람들은 이해하기 힘든 미국문화 ㅇㅇ
- 쿄애니 방화범 관련 야후속보 떴네 Tutti
- 싱글벙글 바둑판 미스테리였던 “외톨이” 사건 ㅇㅇ
- 싱글벙글 역사에 한획을그은 MBC 모음.jpg ㅇㅇ
- 설특집 인디 보드게임 제작기 미플
- 유재석의 진품명품 대참사 ㅇㅇ
- 싱글벙글 일본 창작물 사이트들 근황...jpg ㅇㅇ
- 상가 화장실 찬반 논란.jpg 감돌
- 싱글벙글 어르신들이 자주 헷갈리는 뿌리 식물 ㅇㅇ
- 그림판에 마우스로 추억의 사진을 디지털
겨울 스코틀랜드 뚜벅이 여행기 15. 킬커란, Watt Whisky
[시리즈] 겨울 스코틀랜드 뚜벅이 여행기 · 겨울 스코틀랜드 뚜벅이 여행기 0. 서론 및 숙소 이동 · 겨울 스코틀랜드 뚜벅이 여행기 1. 글렌피딕 · 겨울 스코틀랜드 뚜벅이 여행기 2. 발베니 · 겨울 스코틀랜드 뚜벅이 여행기 3. 스페이사이드 쿠퍼리지, 글렌알라키 · 겨울 스코틀랜드 뚜벅이 여행기 4. 벤리악, 고든앤맥페일 · 겨울 스코틀랜드 뚜벅이 여행기 5. 벤로막 · 겨울 스코틀랜드 뚜벅이 여행기 6. 글렌고인 · 겨울 스코틀랜드 뚜벅이 여행기 7. 로즈뱅크 및 아일라 이동 · 겨울 스코틀랜드 뚜벅이 여행기 8. 아드벡 · 겨울 스코틀랜드 뚜벅이 여행기 9. 보모어 · 겨울 스코틀랜드 뚜벅이 여행기 10. 브룩라디 · 겨울 스코틀랜드 뚜벅이 여행기 11. 부나하벤, 쿨일라 · 겨울 스코틀랜드 뚜벅이 여행기 12. 라가불린 · 겨울 스코틀랜드 뚜벅이 여행기 13. 라프로익 후 캠벨타운 이동 · 겨울 스코틀랜드 뚜벅이 여행기 14. 스프링뱅크 안녕하세요.아마 이 글은 내일 올리겠지만 쓰고있는 지금은 아직 공항입니다.한국엔 내일 많은 눈이 온다던데 과연,,,킬커란, Watt Whisky 시작합니다.---------------------------------------------------------킬커란 투어를 하는 날이다. 어제 숙소에서 만난 대만인 친구한테 케이지바틀 사라고 추천해줬다. 하룻밤만 묵고 떠난다길래 케이지바틀 사러 같이 간 김에 스뱅 15년도 추천해줬다. 새삼 세금제한 없는 친구들이 부러웠다.케이지바틀 구경하러 갔는데 그 친구는 빨리 갈 생각이 없어서 10시 맞춰 갔더니 어지간한건 다 품절이더라. 직원이 날 보면서 너 어제 사지 않았냐고 의심한다. 내거 아니라고 말하고 슥 비켜주느라 제대로 구경도 못했다.아무튼 킬커란 투어 시작. 오늘도 나 혼자다.킬커란은 원래 글렌가일 이라는 이름을 썼지만 폐쇄 후 재오픈 시점에 누군가 그 이름을 사용하고 있어 쓸 수 없게 되었다고 한다. 스페인 어딘가의 증류소라고 한다.킬커란 증류소 뒷편으로 새로 증축중인 웨어하우스가 있다.킬커란은 9-12월에만 증류를 진행한다. 몰팅은 스프링뱅크와 같은 장소에서 처리를 하고 분쇄기부터 따로 쓴다고 한다.이 분쇄기는 크라이겔라키 증류소에서 1파운드 주고 사왔다고 한다.배송비가 몇십배는 더 나왔겠다.매쉬튠, 워시백, 스틸이 한곳에 모여있다.매쉬튠은 스뱅에서 이미 전-통적인 뚜껑없는걸 사용하고 있으니 새로운 시도를 해보자고 스틸매쉬튠을 샀다고 한다.이 다음 사진은 혐오스러울 수 있으니 조심하길 바란다. 손으로 가리고 스크롤을 내리길 추천한다.1년 중 9개월을 비워두다보니 워시백 나무가 말라 비틀어지며 크랙이 생긴다고 했다. 덕분에 워시백을 새로 교체하고 그 뒤로는 이렇게 물을 채워 보관한다고 한다. 곰팡이가 잔뜩 펴있다.발효시간은 스프링뱅크와 동일한 72-110시간이다.스틸 두개는 인버고든에서 사왔다고 하는데, 이건 1파운드 아니라고 한다. 구매한 스틸은 두개 다 워시스틸인데 그 중 하나를 스피릿 스틸로 사용중이라고 한다.롱로우와 같이 2회 증류를 하고 있다고 한다.아래로 내려가면 스피릿 시음을 시켜준다. 63.5도로 굉장히 낮은 도수인데 왜이리 낮냐고 물어보니 씨익 웃으면서 높은건 마시기 힘들지 않냐고 한다.짬처린가보다.스틸하우스를 나와 뒤돌아보면 여기가 정문이다.바로 옆에 있는 통입시설로 이동.킬커란은 통입을 전부 수작업으로 하고 있다.사실상 모든 바틀이 핸드필인 셈이다.기계로 하는게 아니다보니 작업자들은 헤드램프를 착용하여 캐스크 안쪽을 확인한다고 한다.바닥의 네모난걸로 무게를 재고 얼마나 많은 양의 스피릿이 들어갔는지 수기로 입력한다고 한다.이정도면 수제 위스키가 아닐까.개열받게 또 센터가 안맞는다. 창밖은 본인들 소유의 땅이 아니라며 주차된 트랙터인지 자동차가 있어 그걸 피하는데만 집중했더니 사진이 이따구다. 아오 화나한번 사용된 캐스크는 이렇게 외부에 보관해둔다고 한다. 캠벨타운의 날씨 덕분에 밖에 둬도 마르지 않는다고 한다.캐스크는 최대 3회까지 사용한다고 들었다. 그 이상 넘어가면 이렇게 재활용을 하는 모습이다.어제 갔던 웨어하우스와 다른 곳을 보여준다. 이런 면은 참 센스가 좋다.스프링뱅크는 5개의 더니지와 3개의 랙드??? 아무튼 현대화된 웨어하우스가 있다.안쪽은 제법 웅장하다.1997 스뱅은 과연 무슨맛일까,,,웨어하우스에는 이렇게 스뱅의 규칙과 다르게 적혀진 캐스크가 있는데 이건 자매회사인 카덴헤드의 캐스크라고 한다. 카덴헤드 캐스크도 같은 곳에서 숙성된다고 했다.또한 케이지바틀에 적힌 캐스크 정보도 저런 형태이다.예를들어 위 사진이라면 23/p93 이 된다.어제와 같은 곳으로 이동해 미니어쳐 받고 마무리.워시백 바에서 킬커란 12년 한잔하며 느긋하게 있었다.워밍업 끝났으면 섹스 시작킬커란 20년 2024 오픈데이 49.2도 10년 럼캐스크 숙성 후 10년 리필버번 혹스헤드 숙성캠벨타운 몰트 페스티벌 20주년 기념 바틀로 재개장 당시의 원액이라고 한다.흔하게 버번 숙성 후 럼 피니시가 아닌 럼캐스크에서 먼저 숙성하는 이유가 있나 물어봤다.스프링뱅크는 포스퀘어의 럼캐스크를 사용하는데, 럼캐스크 자체가 버번에서 한번 숙성시켜 나오는 것이라 버번캐스크의 특징도 같이 나타난다고 한다.꽤 신기한 맛이었다.엄청 트로피컬한 버번캐스크가 된 느낌? 근데 사고 싶은 느낌은 아니였다.두번째 잔롱로우 21년 2022 46도 30퍼 버번캐스크, 60퍼 쉐리캐스크, 10퍼 샤도네이 캐스크세일중이라 15파운드. 캠벨타운은 천국이 맞다.꽤나 비워진 바틀이라 충분히 에어링이 된건지 복숭아향이 터져나온다. 과일과 피트의 향이 잘 섞여서 단짠이 너무 잘 어울리는 한잔이었다.집가는길에 다시 들러서 찍었다. 센터는 맞는데 왜 이따군지 모르겠다. 취했나.숙소 돌아가서 밥먹고 쉬다가 다시 증류소에 왔다.왜냐면 오늘은 킬커란 웨어하우스 테이스팅도 있기 때문이다.웨어하우스에 도착하면 이렇게 세팅이 되어있다.오늘의 시음목록.킬커란 테이스팅은 이 목록 중 마음에 드는 것을 하나 골라 구매할 수 있다. 가격은 캐스크별로 다르다. 시작 전에 유심히 봐두자.1. 킬커란 18년 트리플디스틸드 리필버번 배럴 59도 / 60파운드2. 킬커란 19년 리필버번 혹스헤드 54.1도 / 80파운드3. 킬커란 15년 프레쉬 버번 배럴 56.9도 / 40파운드> 가이드피셜 가장 트레디셔널한 캠벨타운 스타일 이라고 했다.4. 킬커란 11년 포트 파이프 숙성 후 리필 버번 배럴 피니쉬 53.5도 / 30파운드> 일반적인 방식과 달리 포트파이프 9년 숙성 후 리필 버번에서 4년 숙성된 바틀. 이거 굉장히 특이하고 맛있었다.5. 킬커란 11년 리필 쉐리 혹스헤드 57.1도6. 킬커란 9년 헤빌리피티드 프레쉬 버번 배럴 59.7도 50-60ppm(가이드도 정확히 모른다더라) > 스모키 보다는 피티에 더 가까운, 아일라 스러운 바틀이라는 설명을 덧붙였다.5번 6번은 정확히 기억은 안나지만 저숙성은 다 30파운드가 맞을 것이다.근데 사실 소용없다. 한시간 조금 넘는 시간 안에 떠들면서 6잔 마시면 혀도 맛가고 취기가 제법 오른다. 기억이 안난다는 뜻이다.여기서 들었던 흥미로운 사실 하나.킬커란이 글렌가일이라는 이름을 뺏긴 뒤 스프링뱅크는 엄청난 이름을 사들였다. 다시 이런 일을 겪을 수 없기 때문이다.그 후 발베니에서 정체를 숨긴 바틀을 내려고 번사이드로 이름짓고 출시하려고 하는데,,,스뱅 : 그거 우리건데???발베니 : ????!!!!그렇게 발베니의 번사이드는 피딕을 한스푼 넣고 블랜디드 몰트가 되었다는 카더라를 들을 수 있었다.Burn은 게일어로 신선한 물 이라는 뜻이며, 물옆에있다는 뜻으로 Burnside라는 이름이라고 했다. 캠벨타운에는 이 이름을 가진 바가 존재한다.그래서 캠벨타운에서 번사이드보고 발베니라고 하면 나가달라고 한다. 물론 장난이지만.아무튼 즐거운 테이스팅을 마치고 나니 내 손에 들려있는 하프바틀.4번 하나 샀다. 이때까지만 해도 30파운드? 세금내지뭐 라는 마인드였다. 미래를 알았더라면,,,사람들이 잘 모르지만 캠벨타운엔 Watt Whisky의 본사가 있다.그리고 매주 수요일마다 테이스팅 세션이 열린다. 본사 공간이 협소하여 주변 바를 활용한다.가격은 5잔에 25파운드. 충분히 할만하다고 본다.사실 안할 생각이었다. 금요일 하루를 완전히 빼고싶다는 이상한 생각이 자꾸 들어서 킬커란 테이스팅을 수요일로 당겼는데 테이스팅 하고 숙소와서 술 더머거야징 하고 신청했다.위붕이들은 술먹고 충동적으로 지르지 말자.시음 라인업. 1. Dalrymple 11년 로우랜드 블렌디드 몰트 57.1도2. Glen Elgin 11년 버번 혹스헤드 55.3도3. Nc’nean 6년 str캐스크(레드와인) 57.1도4. A Speyside 15년 54.9도5. 가이아나 럼 MDB2M 12년 57.1도Dalrymple은 Ailsa Bay 라는 몰트공급하는 업체라는 얘기가 있음. 윌리엄 그랜트 사의 티스푼 블랜디드? 라고 함A speyside의 경우 바틀에 적힌 오피셜 테이스팅 노트가 Rich, Meaty라고 적혀있으면 그냥 몰루락이라고 보면 된다고 함가이아나 럼은,,, 난 잘 모르겠다,,,5개 중에 1등은 엘긴이었음허브향이 시원하게 나는게 민트같은 느낌이랑 트로피컬 과일 섞이니까 엄청 맛있게 잘넘어갔다. 다른 잔 다 먹고 계속 엘긴 빈잔 킁킁거릴 정도.서비스 1번Trinidad Rum TML 16년 57.1도트로피컬 과실향 터지고 맛있긴 한데 흠,,서비스2번Peatsmoke on Gorgie 5년 57.1도58퍼 노스 브리티쉬 12년 + 42퍼 피티드 블랜디드 몰트이때부터 슬슬 취해서 정신못차리기 시작같이 테이스팅 들었던 독일 아저씨가 사줬다.위스키 클럽? 같은 모임 하는분이라는데 단체로 놀러오셨나봄. 캠벨타운 자주 오신다고 한다.서비스3번로크란자 7년 59.1도이거 미친놈 같았음. 향에서 스모키한게 터지는데 맛은 그렇게 피트가 강하지도 않고 달달한 맛에 피트 밸런스가 너무 맛있었음서비스 포함 총 8잔 주는데 25파운드면 가성비가 상당하다. 캠벨타운에 오는 위붕이가 있으면 꼭 참여해보길 추천한다.와트위스키 판매목록테이스팅 참여하면 바틀 5파운드 할인을 해준다.와트위스키 판매목록2살까말까 고민 엄청 했는데 옆에 아저씨들 전부 이거 한병씩 사더라.일본에라도 팔면 안사올라 했는데 구글링 해도 안보이길래 그냥 샀다.밖에 나가보니 킬커란 테이스팅 같이했던 분도 와서 술먹고계신다. 그리고 술집 손님 중 대부분이 증류소에서 일하시는 분들이다.같이 맥주한잔 하고 만취해서 집가서 쓰러져 잤다.한 18잔 마신 것 같은데 그것도 하프 아니고 정량보다 다 많이, 거의 다 cs로 마셔서 개취했다. 여행 내내 이만큼 취한거 처음이다.아무튼 킬커란, Watt Whisky 끝!긴 글 읽어주셔서 감사합니다. 내일은 마지막 글렌스코시아, 카덴헤드 테이스팅으로 찾아오겠습니다.- dc official App
작성자 : Tulbae고정닉
벤 톰슨 stratechery DeepSeek 분석
사건의 발단은 워싱턴이 2023년 중국이 7나노를 만들어내는 것을 보고 과하게 경기를 일으킨 것부터 시작된다. 2023년 9월 화웨이가 SMIC를 통해 만든 7나노가 탑재된 Mate 60 Pro를 발표했을 때, 그 칩을 자세히 들여다보면 놀라운 일은 아니었는데 말이다.이미 그로부터 1년 전, SMIC는 7나노를 만들었었고 타사들도 다 만들 수 있음에도 수율이 안나와서 안만들었을 뿐인 사건인데 말이다. 오히려 놀라웠던건 워싱턴 DC의 반응이었고 그때부터 미국은 칩 판매를 허가기반으로 바꿔버린 것이다. DeepSeek 사건도 이때와 비슷하게 흘러가고 있다.사실 이번 훈련비용 절감 관련한 사실은 R1 모델이 아니라 지난 크리스마스에 공개된 V3 논문에서 드러났었다.https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf그들은 V3모델 이전의 V2에서 DeepSeekMoE, DeepSeekMLA를 소개했었는데, 이 성과가 V3에서부터 나기 시작했다.우선 DeepSeekMoE는 MoE, Mixture of Experts 전문가 혼합이라는 뜻인데 GPT-3.5 같은 모델은 훈련시든 추론시든 어떤 토큰이 모델로 들어오면 전체를 활성화시키는데 반해, MoE는 특정 주제에 맞는 전문가만 활성화시킨다. (**물론 이것이 잘 발동하려면 게이트가 토큰의 종류를 적절히 판별해 알맞는 전문가에 보내도록 해야한다. 사전학습시 Dense 모델처럼 토큰마다 모든 GPU를 사용하지 않으니 Sparse할 것이고 연산량과 GPU타임이 줄 수 밖에 없다. 하지만 최근 트렌드는 거의 모든 훈련모델들이 MoE를 사용하고 있기 때문에 이것 때문에 효율성이 특출나졌다는 것은 불가능한 이야기다.)이어서 DeepSeekMLA는 추론에서의 제한사항을 혁신해주었다. 어마어마한 양의 메모리 사용량을 줄여준 것이다. 기존에는 모델 전체를 메모리에 로드하고 긴 컨텍스트 윈도우의 토큰 모두를 Key, Value 값으로 저장해야했는데 이런식은 Key-Value 값이 기하급수적으로 늘어서 비용이 늘 수 밖에 없는 것이다. 메모리 부담도 매우 커지고. 하지만 MLA, Multi-head latent attention을 통해 key-value 저장을 압축시켜서 추론시 필요한 메모리를 크게 줄였다.여기에 V3에서 통신오버헤드를 줄이는 로드 밸런싱 방식과 훈련단계에서 여러 토큰을 동시에 예측하도록(multi-token prediction)하는 기법이 추가된 것이다. 그 결과 훈련 효율이 크게 향상되어 H800 GPU 타임이 2,788K로 전체 비용이 557.6만 달러가 나온 것이다. (**라마 훈련비용에 비해 3%)Q: 그건 아무리 봐도 너무 낮은 것 아닌가? A: 최종 훈련단계에서의 비용만 계산한 것이다. 그외 모든 비용은 제외시킨 것이다. V3 논문 자체에도 이런 표현이 명시되어 있다.- 모델구조, 알고리즘, 데이터, 사전 연구, 비교실험 등에 사용된 비용은 포함하지 않았다.즉, 이번 DeepSeek 사건을 재현하려면 3%보다 훨씬 더 큰 돈이 든다는 말이다. 하지만 "최종 훈련" 자체만 보면 그 비용은 말이 된다.Q: 알렉산드르 왕이 한 H100 5만개 이야기는 뭔가?A: 아마 그는 Dylan Patel이 2024년 11월에 한 트윗을 본 것이 아닐까 추측한다. 당시 파텔은 DeepSeek이 호퍼 5만개분을 가지고 있을 것이라는 분석을 내놓았다. 사실 H800은 H100에서 메모리 대역폭을 크게 줄인 버전이다. 중요한 점은 DeepSeek은 그 GPU간의 통신에서 제한이 걸렸기 때문에 이런 연구를 시작했고 거기서 성과를 냈다는 것이다. H800 각 칩에서 132개 프로세싱 유닛 중 20개를 통신 전담으로 할당했다는 것은 쿠다로는 불가능하다. PTX라는 저수준 GPU 명령어집합까지 내려가야만 가능한 일이다. 이정도로 미친수준의 최적화까지 집착했다는 것은 오히려 H100이 아니라 H800에서 훈련을 해내겠다는 집념을 보인 셈이다. 또 지금처럼 추론 서비스를 실제 제공하고 있으려면 상당량의 GPU가 확보되어야만 가능한 일이다. 어마어마한 양의 GPU가 필요하다.(**아마 호퍼 5만개 이상은 확보했을 것이라는 추측이며 최근 일론 머스크도 여기에 동의했다.)Q: 그럼 칩 규제 위반 아닌가?A: 아니다. H100은 막았어도 H800은 막지 않았기 때문이다. 다들 프론티어 모델을 개발하려면 칩간 대역폭이 중요할 것이라 추측했는데 DeepSeek은 그 한계를 극복하도록 모델 구조와 인프라를 최적화시킨 셈이다. 만약 H100 수출규제가 없었다면 더 쉽게 클러스터를 구축하고 모델을 만들어냈을 것이다.Q: 그럼 V3가 (base에서의) 프론티어 모델이란 말인가?A: 적어도 4o, Sonnet-3.5 와 비빌 수준임은 확실해보이고 라마보다는 훨씬 더 위다. 다만 DeepSeek은 4o, 소넷을 디스틸(distill)해서 훈련용 토큰을 만들어냈을 확률이 아주 높아보인다.Q: 디스틸레이션(distillation)이 뭔가?A: 디스틸레이션은 다른 모델의 이해를 추출하는 방법이다. 선생 모델에서 다양한 입력을 넣고 만들어진 출력으로 학생 모델의 학습에 사용시키는 것이다. 각 연구소들은 이런 디스틸레이션을 명백히 금지하고 있다. 하지만 매우 흔하게, DeepSeek 외에도 수많은 곳에서 다들 하고 있다. 때문에 4o, 소넷급 모델들이 계속해서 나오고 있는 것이다. 솔직히 안했을리가 없다고 생각될 정도로 흔한 방법이다.Q: 그럼 1등 모델들은 불리한 것 아닌가?A: 맞다. 앞서가는 연구소들은 가장자리를 넓히는데에 이런 방식은 사용할 수 없다. 대신에 자사 모델 최적화에는 사용할 수 있는 정도다. 부정적인 면은, 이런식으로 디스틸하게 되면 타 연구소들이 계속해서 무임승차하는 것이 가능해진다는 이야기다. 최첨단 모델을 개발하는데 드는 비용은 오직 프론티어 랩들만이 떠안게 된다. 그 결과, 리딩 엣지(leading edge) 모델들에 어마어마한 돈이 들어서 개발되어도, 금방 디스틸레이션으로 카피해서 들어간 돈이 회수가 어렵게 되는 것이다. 곧바로 상품화되고 흔해지니까 말이다. 바로 이 점이 마이크로소프트와 OpenAI가 점점 더 결별하는 방향으로 나아가는 이유인 것 같다. 1천억 달러를 들여서 최신 모델을 개발해봐야, 금방 감가상각되어 흔해지면 돈을 회수할 수가 없다.Q: 이런 이유로 빅테크 주가가 떨어지고 있는 것인가?A: 장기적으로보면 추론비용이 싸지는 것은 마이크로소프트 같은 기업에 유리하다. 그들은 서비스 제공업자이기 때문이다. 아마존 역시 AWS 때문에 수혜자다.이번 사건으로 가장 큰 수혜를 보는 곳 중 하나는 애플이다. 메모리 요구량이 급격하게 줄면 애플 실리콘 같은 엣지 디바이스에서 추론이 실현 가능해지기 때문이다. 애플은 CPU, GPU, NPU가 모두 통합된 메모리를 공유한다. 즉, 애플의 고사양 칩이 곧바로 소비자용 추론 칩이 될 수 있다.엔1비디아의 게이밍 GPU VRAM은 32GB가 최대치지만 애플의 경우 128GB의 램을 사용할 수 있다.메타도 수혜자다. 그들의 비전에서 가장 큰 걸림돌이 추론 비용이었는데 이게 사전훈련 비용과 마찬가지로 매우 싸진다면 그들의 비전 역시 더욱 실현가능해질 것이다.다만 구글의 경우는 악재다. 하드웨어 요구량이 줄어들기 때문에 그들의 TPU로 누려왔던 이점이 줄어들고 추론비용이 제로에 가까워질수록 새로운 검색서비스 등이 나타나기 때문이다. 물론 구글도 자체비용을 줄일 순 있겠지만 잃는 것이 더 크다.Q: 그럼 왜 주가가 떨어지나A: 내가 말한 건 장기적 비전이고 현재는 R1으로 인한 충격이 수습되기 전이다.Q: R1은 어떤가A: R1은 추론형 모델이다. 이는 openai의 o1 신화를 두 가지 면에서 무너뜨린다. 첫째 존재 자체다. 추론에 오픈ai만의 특별한 비법이 없다는 것이다. 둘째, 가중치를 공개해버렸다는 것이다. 물론 데이터는 숨겼기 때문에 오픈소스라 일컫는 것은 무리가 있지만 말이다. 이제 굳이 OpenAI에 돈을 내지 않고도 원하는 서버나 로컬환경에서 추론모델을 돌릴 수 있게 되었다.사실 deepseek은 이번에 R1과 R1zero를 함께 공개했는데 후자가 더 중요하다고 본다.R1-zero는 인간의 피드백을 완전히 빼버렸다. 순수 RL(강화학습)이다. 이 모델에 문제를 잔뜩 주고 올바른 답을 내면 보상을 주고, 체계적인 사고과정을 보여주면 또 보상을 주는 방식으로 만들었다. 마치 알파고가 이기면 보상을 주는 보상함수를 만들었더니 모델 스스로 인간이 가르치지 않은 방식대로 서로 학습시킨 것 처럼 말이다.이를 보면 The bitter Lesson이 다시 한번 입증된 것 같다. 추론하는 방법을 일일히 가르치는 것이 아니라 충분한 연산자원과 데이터만 주면 알아서 학습한다는 것이다. Q: 그럼 결국 우린 AGI에 더 가까워진 것인가?A: 그렇게 보인다. 소프트뱅크의 마사요시가 왜 마이크로소프트가 아닌 OpenAI에 돈을 댄 것인지도 설명이 된다. 1등에 서면 엄청난 수익이 돌아올 것이라는 믿음이 있는 것이다. (** 곧 모델이 알아서 똑똑해지기 시작할 것이기 때문)Q: 그럼 R1이 선두에 선 것인가?A: 그렇다고 보긴 어렵다. 여러 정황 상 R1은 o1-pro를 디스틸레이션한 것으로 보인다. OpenAI는 이미 o3를 선보였다. DeepSeek은 확실히 효율성에서 선두를 차지했지만 그게 최고의 모델이라는 의미는 아니다.(** 뿐만 아니라 o1-mini도 R1 671B 디스틸에 사용된 정황으로 보이는 케이스도 속속 드러났다. https://x.com/JJitsev/status/1883158764863537336)Q: 그럼 왜 이렇게 다들 호들갑인건가?A: 세 가지 요인 때문이다. 1. 중국은 미국보다 많이 뒤쳐져있다 는 인식이 틀렸기 때문에 사람들이 충격받는 것이다. 중국의 소프트웨어 역량은 매우 높은 수준임이 드러났다.2. V3의 낮은 훈련비용, R1의 낮은 추론 비용 때문이다. 계산상으로는 가능한 수치였기 때문에 NVDA에 대한 우려가 커진 것이다.3. DeepSeek이 칩 규제라는 벽을 뚫고 이 성과를 이뤄냈기 때문이다. 현재까지는 어쨌든 합법적으로 구한 H800으로 훈련한 것으로 보이긴 하지만 허점이 많다.Q: 난 NVDA 갖고 있는데 망한건가?A: NVDA 해자가 2개 있었다.1. 쿠다2. 여러 GPU를 하나로 묶어 가상의 거대한 GPU로 만들어내는 기술 - 이 능력은 그 회사만의 독보적인 영역이었다.이 둘은 서로를 더욱 강화시켜주는 것이었는데 약한 하드웨어와 낮은 대역폭으로도 극단적인 최적화가 가능하다는 것이 증명되었기 때문에 NVDA는 새로운 스토리들이 더 필요하게 되었다.다만 아직 유리한 점이 3가지 있다.1. DeepSeek의 접근방식을 오히려 H100이나 GB100 같은 최신식 칩에 사용하게 된다면 얼마나 더 강력해질까? 더 효율적인 컴퓨팅이 가능해진다 하더라도 더 많은 컴퓨팅은 여전히 유효하다.2. 추론 비용이 낮아지면 -> 오히려 모델 사용량이 더 늘어나는 측면이 있다.(** 사티아 나델라는 간밤에 제본스의 역설을 언급하며 AI가 점점 더 싸지고 접근가능성이 높아진다면 사용량이 더 크게 오를 것이라고 언질을 주었다.)(** 제본스의 역설이란 단일 비용이 A에서 B로 싸진다면 사용량이 C에서 D로 늘어나기 때문에 전체 사용량은 오히려 늘어남을 지적하는 것이다.)3. R1이나 o1같은 추론모델들은 더 많은 컴퓨팅을 사용할수록 더 똑똑해진다. 인공지능의 성능을 높이는 방법이 여전히 컴퓨팅에 달려있다면 여전히 NVDA가 수혜를 볼 가능성이 있다.하지만 장밋빛 전망만 있는 것은 아니다.DeepSeek의 효율성과 오픈웨이트로 인한 광범위한 공개는 NVDA의 단기적인 낙관적 성공스토리에 물음표를 달아버렸다.특히. 추론단계에서는 NVDA 칩 외에도 다른 대안 시나리오가 작동하기 시작했다.예를 들어 AMD 칩 하나로도 추론이 가능해진다면 칩간 대역폭이 낮다는 AMD 측의 단점을 상쇄할 수 있게 된다.추론 전용칩이 각광을 받을 수도 있다.요약하자면 NVDA가 사라지진 않을 것이다. 다만 지금까지 고려되지 않았던 불확실성에 노출되었고 이는 하방압력을 키울 수 밖에 없다.Q: 칩 규제는 어떻게 되는건가?A: 칩규제가 더 중요해졌다고 주장할 수도 있겠지만. 2023년의 백악관의 규제가 DeepSeek을 부추긴 것이라고도 볼 수 있기 때문에 단기적으로는 효과가 있더라도 장기적으로는 의문이다.Q: 그럼 왜 중국은 오픈소스를 하는건가?A: 중국이 아니라 DeepSeek이 그렇게 하는거다. CEO 량원펑은 오픈소스야말로 인재를 끌어들이는 핵심이라고 언급했다. Q: 그럼 OpenAI는 망한건가?A: 그렇다고 볼 순 없다. 결국은 AI Take-off에 가장 먼저 도달한 자가 승리한다. 반면 이번 주말의 가장 큰 패배자는 앤트로픽이다. DeepSeek이 앱스토어 1위를 차지하기까지 샌프란시스코 지역 외에서 클로드는 주목조차 끌지 못했다. API가 그나마 잘돌아간다고 어필하지만, DeepSeek 같은 방식대로 디스틸로 프론티어모델이 흔하게 퍼져버리면 가장 먼저 무너지는 쪽이 이 API 비즈니스다. 돈주고 API 쓰느니 성능이 비슷하다면 DeepSeek 같은 오픈웨이트 모델을 쓰기 때문이다.결국 가장 큰 수혜자는 소비자와 기업들이다. 이런 미래는 사실상 무료에 가까운 AI 제품과 서비스를 누릴 수 있게 될 것이기 때문이다. 중국은 이제 자신감이 점점 더 커질 것이다.미국은 선택의 기로에 놓여있다. 더 강경하게 나아갈 것인가, 아니면 더 큰 혁신으로 나아갈 것인가. 연구소들이 이제 로비에 신경쓰지 않고 혁신에만 집중하게된다면, 우린 DeepSeek에게 감사하게 될지도 모른다.
작성자 : KurisuMakise고정닉
차단하기
설정을 통해 게시물을 걸러서 볼 수 있습니다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.