갤러리 이슈박스, 최근방문 갤러리
연관 갤러리
아이유 갤러리 타 갤러리(0)
이 갤러리가 연관 갤러리로 추가한 갤러리
0/0
타 갤러리 아이유 갤러리(0)
이 갤러리를 연관 갤러리로 추가한 갤러리
0/0
개념글 리스트
1/3
- 송은이와 김숙이 직접 기획한 연프 이건 재밌어 보임ㅋㅋㅋㅋ ㅇㅇ
- 폰아레나의 갤럭시 S25 울트라 리뷰 요약 SundayMove
- 뉴비의 r8 도쿄 사진 (스압) 디붕이
- 말왕형 일침 보고가라 ㅇㅇ
- 중국만물설에 편입됐네 조앤몬
- PSG 한국 팬에게 설날 인사...jpg 코델리아
- MBC 요오안나 사태 입장문 0
- 트럼프, 반도체법 비판 "외국 기업에 돈 주고싶지 않다" ㅋㅋ.
- (후기) 삿포로 경마장 가이드 ㅇㅇ
- 싱글벙글 우리나라 국회가 가진 세계기록 ㅇㅇ
- 딥시크 활용한 hwh 매매 후기 케엑
- 스압) 리제 피규어 만들어 봄 ㅇㅇ
- 포트라400 색감을 내고 싶었던 후중 오사카 코드이상해
- 트럼프 中 딥시크 AI 개발은 "좋은 일" ㅋㅋ.
- 싱글방글 창문이 초록색인 이유 썅년
한국,중국집에 시집오면 안되는 이유
화장실 사용통제는, 통제의 기본, 기본기중의 기본기 ㅎㅎ밥 물을 올리기전에 시어머니에게 검사를 받는 장면 ㄷㄷ상대방을 바보취급하는건 한국생활의 기본심리 상담가 선생님이 보시기에는 며느리가 자기중심적인 성향이라고 한다, 이 중국과 한국의 문화에 따라야하는데 따르지 않는다는 것일까..?중국 며느리는 한국과 문화가 비슷하기때문에 칭찬해주지만, 일본 며느리는 그렇지 못해서 갈구는듯 ㅎㅎhttps://youtu.be/64QCMhCvH-g?si=WFVAp4GFYSohmCOF [Full] 다문화 고부열전 - 22년 차 초보 주부인 며느리, 속 터지는 시어머니 경북 영천시에 사는 일본인 며느리!벌써 결혼 22년차 주부인 그녀는복작복작 네 명의 아이들과 함께 살고 있다.시어머니의 집은 며느리의 집과 1시간 거리다.처음에는 함께 살았던 고부.먼 데서 시집와 농사며 살림을 하나도 모르던 며느리를시어머니는 하나하나 가르치며 살갑게 챙겨 주었다....youtu.be중국과 한국의 가정문화는 생각보다 무서운경우가 대부분이라, 선진국 사람들로서는 이해가 안될수밖에.. ㅎㅎ한국에서 시모를 모시며 22년을 살아도 구박받는건 여전할뿐 ㅎㅎ
작성자 : 부갤러고정닉
서울대학교 예정 건축물
서울대학교는 대부분의 건축물을 동문이나 외부의 기부를 통해서 짓고 있는데그럼에도 불구하고 매년 캠퍼스 내에서 공사가 끊이지 않는다.현재 서울대학교가 계획하고 있는 사업들이 뭐가 있는지 정리해본다1. 서울대학교 문화관현재 모습조감도 목표 모금액은 500억이다. 현재 약 190억이 모였다.2. 김철수 물리관김철수 교수의 제자인 서울대 동문인 이효상 씨가 4백만 달러(약50-60억원)의 기부를 통해 지어지게 된 건물투시도현재 공사 중이며, 2025년 8월 준공 예정이다.3. 서울대학교 Computing Commons 목표 모금액은 1000억원이며, 모금 공고가 올라온지 얼마 되지 않아서 아직 3천만 정도만 모여있다.4. 서울대 치의학대학원 본관 증축연건캠퍼스 현재 모습 (많이 낡은 모습이다..)치의학대학원 건물은 관악캠에도 새걸로 지은지 얼마 안됐다.현재 지속적으로 시설 리모델링을 추진할 계획인 듯하다.관악캠퍼스 치과병원 건물연건캠퍼스 치의학대학원 본관증축 조감도100억원 목표로 모금을 시작했으나, 현재 200억 가까이 모여있다.현재 공사에 착수할 예정5. 경제학부 한국경제혁신센터 증축서울대학교 경제학부는 현재 정부의 싱크탱크로서 역할을 하기 위해 경제학부 내에 자체적으로 연구기관을 설립하였다. 이를 지원할 시설로서 기존의 사회과학대학 건물을 증축할 계획이다.현재 사회과학대학 모습증축 예정 조감도400억원을 목표로 모금을 시작했고, 현재 초과 달성한 상태이다.곧 착공에 들어갈 예정6. 서울대학교 수의과대학 부속 동물병원 증축현재 모습건물 중앙부에 증축을 예정하고 있다.목표금액은 140억으로 2024년에 모금을 시작한 이래로 현재 약 4억원 정도 모여져 있다.서울대에는 이외에도 기부자의 이름이나 기부한 기업(삼성,LG,POSCO,롯데,SPC,CJ 등)의 이름으로건축된 건물들이 많다.
작성자 : 579고정닉
벤 톰슨 stratechery DeepSeek 분석
사건의 발단은 워싱턴이 2023년 중국이 7나노를 만들어내는 것을 보고 과하게 경기를 일으킨 것부터 시작된다. 2023년 9월 화웨이가 SMIC를 통해 만든 7나노가 탑재된 Mate 60 Pro를 발표했을 때, 그 칩을 자세히 들여다보면 놀라운 일은 아니었는데 말이다.이미 그로부터 1년 전, SMIC는 7나노를 만들었었고 타사들도 다 만들 수 있음에도 수율이 안나와서 안만들었을 뿐인 사건인데 말이다. 오히려 놀라웠던건 워싱턴 DC의 반응이었고 그때부터 미국은 칩 판매를 허가기반으로 바꿔버린 것이다. DeepSeek 사건도 이때와 비슷하게 흘러가고 있다.사실 이번 훈련비용 절감 관련한 사실은 R1 모델이 아니라 지난 크리스마스에 공개된 V3 논문에서 드러났었다.https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf그들은 V3모델 이전의 V2에서 DeepSeekMoE, DeepSeekMLA를 소개했었는데, 이 성과가 V3에서부터 나기 시작했다.우선 DeepSeekMoE는 MoE, Mixture of Experts 전문가 혼합이라는 뜻인데 GPT-3.5 같은 모델은 훈련시든 추론시든 어떤 토큰이 모델로 들어오면 전체를 활성화시키는데 반해, MoE는 특정 주제에 맞는 전문가만 활성화시킨다. (**물론 이것이 잘 발동하려면 게이트가 토큰의 종류를 적절히 판별해 알맞는 전문가에 보내도록 해야한다. 사전학습시 Dense 모델처럼 토큰마다 모든 GPU를 사용하지 않으니 Sparse할 것이고 연산량과 GPU타임이 줄 수 밖에 없다. 하지만 최근 트렌드는 거의 모든 훈련모델들이 MoE를 사용하고 있기 때문에 이것 때문에 효율성이 특출나졌다는 것은 불가능한 이야기다.)이어서 DeepSeekMLA는 추론에서의 제한사항을 혁신해주었다. 어마어마한 양의 메모리 사용량을 줄여준 것이다. 기존에는 모델 전체를 메모리에 로드하고 긴 컨텍스트 윈도우의 토큰 모두를 Key, Value 값으로 저장해야했는데 이런식은 Key-Value 값이 기하급수적으로 늘어서 비용이 늘 수 밖에 없는 것이다. 메모리 부담도 매우 커지고. 하지만 MLA, Multi-head latent attention을 통해 key-value 저장을 압축시켜서 추론시 필요한 메모리를 크게 줄였다.여기에 V3에서 통신오버헤드를 줄이는 로드 밸런싱 방식과 훈련단계에서 여러 토큰을 동시에 예측하도록(multi-token prediction)하는 기법이 추가된 것이다. 그 결과 훈련 효율이 크게 향상되어 H800 GPU 타임이 2,788K로 전체 비용이 557.6만 달러가 나온 것이다. (**라마 훈련비용에 비해 3%)Q: 그건 아무리 봐도 너무 낮은 것 아닌가? A: 최종 훈련단계에서의 비용만 계산한 것이다. 그외 모든 비용은 제외시킨 것이다. V3 논문 자체에도 이런 표현이 명시되어 있다.- 모델구조, 알고리즘, 데이터, 사전 연구, 비교실험 등에 사용된 비용은 포함하지 않았다.즉, 이번 DeepSeek 사건을 재현하려면 3%보다 훨씬 더 큰 돈이 든다는 말이다. 하지만 "최종 훈련" 자체만 보면 그 비용은 말이 된다.Q: 알렉산드르 왕이 한 H100 5만개 이야기는 뭔가?A: 아마 그는 Dylan Patel이 2024년 11월에 한 트윗을 본 것이 아닐까 추측한다. 당시 파텔은 DeepSeek이 호퍼 5만개분을 가지고 있을 것이라는 분석을 내놓았다. 사실 H800은 H100에서 메모리 대역폭을 크게 줄인 버전이다. 중요한 점은 DeepSeek은 그 GPU간의 통신에서 제한이 걸렸기 때문에 이런 연구를 시작했고 거기서 성과를 냈다는 것이다. H800 각 칩에서 132개 프로세싱 유닛 중 20개를 통신 전담으로 할당했다는 것은 쿠다로는 불가능하다. PTX라는 저수준 GPU 명령어집합까지 내려가야만 가능한 일이다. 이정도로 미친수준의 최적화까지 집착했다는 것은 오히려 H100이 아니라 H800에서 훈련을 해내겠다는 집념을 보인 셈이다. 또 지금처럼 추론 서비스를 실제 제공하고 있으려면 상당량의 GPU가 확보되어야만 가능한 일이다. 어마어마한 양의 GPU가 필요하다.(**아마 호퍼 5만개 이상은 확보했을 것이라는 추측이며 최근 일론 머스크도 여기에 동의했다.)Q: 그럼 칩 규제 위반 아닌가?A: 아니다. H100은 막았어도 H800은 막지 않았기 때문이다. 다들 프론티어 모델을 개발하려면 칩간 대역폭이 중요할 것이라 추측했는데 DeepSeek은 그 한계를 극복하도록 모델 구조와 인프라를 최적화시킨 셈이다. 만약 H100 수출규제가 없었다면 더 쉽게 클러스터를 구축하고 모델을 만들어냈을 것이다.Q: 그럼 V3가 (base에서의) 프론티어 모델이란 말인가?A: 적어도 4o, Sonnet-3.5 와 비빌 수준임은 확실해보이고 라마보다는 훨씬 더 위다. 다만 DeepSeek은 4o, 소넷을 디스틸(distill)해서 훈련용 토큰을 만들어냈을 확률이 아주 높아보인다.Q: 디스틸레이션(distillation)이 뭔가?A: 디스틸레이션은 다른 모델의 이해를 추출하는 방법이다. 선생 모델에서 다양한 입력을 넣고 만들어진 출력으로 학생 모델의 학습에 사용시키는 것이다. 각 연구소들은 이런 디스틸레이션을 명백히 금지하고 있다. 하지만 매우 흔하게, DeepSeek 외에도 수많은 곳에서 다들 하고 있다. 때문에 4o, 소넷급 모델들이 계속해서 나오고 있는 것이다. 솔직히 안했을리가 없다고 생각될 정도로 흔한 방법이다.Q: 그럼 1등 모델들은 불리한 것 아닌가?A: 맞다. 앞서가는 연구소들은 가장자리를 넓히는데에 이런 방식은 사용할 수 없다. 대신에 자사 모델 최적화에는 사용할 수 있는 정도다. 부정적인 면은, 이런식으로 디스틸하게 되면 타 연구소들이 계속해서 무임승차하는 것이 가능해진다는 이야기다. 최첨단 모델을 개발하는데 드는 비용은 오직 프론티어 랩들만이 떠안게 된다. 그 결과, 리딩 엣지(leading edge) 모델들에 어마어마한 돈이 들어서 개발되어도, 금방 디스틸레이션으로 카피해서 들어간 돈이 회수가 어렵게 되는 것이다. 곧바로 상품화되고 흔해지니까 말이다. 바로 이 점이 마이크로소프트와 OpenAI가 점점 더 결별하는 방향으로 나아가는 이유인 것 같다. 1천억 달러를 들여서 최신 모델을 개발해봐야, 금방 감가상각되어 흔해지면 돈을 회수할 수가 없다.Q: 이런 이유로 빅테크 주가가 떨어지고 있는 것인가?A: 장기적으로보면 추론비용이 싸지는 것은 마이크로소프트 같은 기업에 유리하다. 그들은 서비스 제공업자이기 때문이다. 아마존 역시 AWS 때문에 수혜자다.이번 사건으로 가장 큰 수혜를 보는 곳 중 하나는 애플이다. 메모리 요구량이 급격하게 줄면 애플 실리콘 같은 엣지 디바이스에서 추론이 실현 가능해지기 때문이다. 애플은 CPU, GPU, NPU가 모두 통합된 메모리를 공유한다. 즉, 애플의 고사양 칩이 곧바로 소비자용 추론 칩이 될 수 있다.엔1비디아의 게이밍 GPU VRAM은 32GB가 최대치지만 애플의 경우 128GB의 램을 사용할 수 있다.메타도 수혜자다. 그들의 비전에서 가장 큰 걸림돌이 추론 비용이었는데 이게 사전훈련 비용과 마찬가지로 매우 싸진다면 그들의 비전 역시 더욱 실현가능해질 것이다.다만 구글의 경우는 악재다. 하드웨어 요구량이 줄어들기 때문에 그들의 TPU로 누려왔던 이점이 줄어들고 추론비용이 제로에 가까워질수록 새로운 검색서비스 등이 나타나기 때문이다. 물론 구글도 자체비용을 줄일 순 있겠지만 잃는 것이 더 크다.Q: 그럼 왜 주가가 떨어지나A: 내가 말한 건 장기적 비전이고 현재는 R1으로 인한 충격이 수습되기 전이다.Q: R1은 어떤가A: R1은 추론형 모델이다. 이는 openai의 o1 신화를 두 가지 면에서 무너뜨린다. 첫째 존재 자체다. 추론에 오픈ai만의 특별한 비법이 없다는 것이다. 둘째, 가중치를 공개해버렸다는 것이다. 물론 데이터는 숨겼기 때문에 오픈소스라 일컫는 것은 무리가 있지만 말이다. 이제 굳이 OpenAI에 돈을 내지 않고도 원하는 서버나 로컬환경에서 추론모델을 돌릴 수 있게 되었다.사실 deepseek은 이번에 R1과 R1zero를 함께 공개했는데 후자가 더 중요하다고 본다.R1-zero는 인간의 피드백을 완전히 빼버렸다. 순수 RL(강화학습)이다. 이 모델에 문제를 잔뜩 주고 올바른 답을 내면 보상을 주고, 체계적인 사고과정을 보여주면 또 보상을 주는 방식으로 만들었다. 마치 알파고가 이기면 보상을 주는 보상함수를 만들었더니 모델 스스로 인간이 가르치지 않은 방식대로 서로 학습시킨 것 처럼 말이다.이를 보면 The bitter Lesson이 다시 한번 입증된 것 같다. 추론하는 방법을 일일히 가르치는 것이 아니라 충분한 연산자원과 데이터만 주면 알아서 학습한다는 것이다. Q: 그럼 결국 우린 AGI에 더 가까워진 것인가?A: 그렇게 보인다. 소프트뱅크의 마사요시가 왜 마이크로소프트가 아닌 OpenAI에 돈을 댄 것인지도 설명이 된다. 1등에 서면 엄청난 수익이 돌아올 것이라는 믿음이 있는 것이다. (** 곧 모델이 알아서 똑똑해지기 시작할 것이기 때문)Q: 그럼 R1이 선두에 선 것인가?A: 그렇다고 보긴 어렵다. 여러 정황 상 R1은 o1-pro를 디스틸레이션한 것으로 보인다. OpenAI는 이미 o3를 선보였다. DeepSeek은 확실히 효율성에서 선두를 차지했지만 그게 최고의 모델이라는 의미는 아니다.(** 뿐만 아니라 o1-mini도 R1 671B 디스틸에 사용된 정황으로 보이는 케이스도 속속 드러났다. https://x.com/JJitsev/status/1883158764863537336)Q: 그럼 왜 이렇게 다들 호들갑인건가?A: 세 가지 요인 때문이다. 1. 중국은 미국보다 많이 뒤쳐져있다 는 인식이 틀렸기 때문에 사람들이 충격받는 것이다. 중국의 소프트웨어 역량은 매우 높은 수준임이 드러났다.2. V3의 낮은 훈련비용, R1의 낮은 추론 비용 때문이다. 계산상으로는 가능한 수치였기 때문에 NVDA에 대한 우려가 커진 것이다.3. DeepSeek이 칩 규제라는 벽을 뚫고 이 성과를 이뤄냈기 때문이다. 현재까지는 어쨌든 합법적으로 구한 H800으로 훈련한 것으로 보이긴 하지만 허점이 많다.Q: 난 NVDA 갖고 있는데 망한건가?A: NVDA 해자가 2개 있었다.1. 쿠다2. 여러 GPU를 하나로 묶어 가상의 거대한 GPU로 만들어내는 기술 - 이 능력은 그 회사만의 독보적인 영역이었다.이 둘은 서로를 더욱 강화시켜주는 것이었는데 약한 하드웨어와 낮은 대역폭으로도 극단적인 최적화가 가능하다는 것이 증명되었기 때문에 NVDA는 새로운 스토리들이 더 필요하게 되었다.다만 아직 유리한 점이 3가지 있다.1. DeepSeek의 접근방식을 오히려 H100이나 GB100 같은 최신식 칩에 사용하게 된다면 얼마나 더 강력해질까? 더 효율적인 컴퓨팅이 가능해진다 하더라도 더 많은 컴퓨팅은 여전히 유효하다.2. 추론 비용이 낮아지면 -> 오히려 모델 사용량이 더 늘어나는 측면이 있다.(** 사티아 나델라는 간밤에 제본스의 역설을 언급하며 AI가 점점 더 싸지고 접근가능성이 높아진다면 사용량이 더 크게 오를 것이라고 언질을 주었다.)(** 제본스의 역설이란 단일 비용이 A에서 B로 싸진다면 사용량이 C에서 D로 늘어나기 때문에 전체 사용량은 오히려 늘어남을 지적하는 것이다.)3. R1이나 o1같은 추론모델들은 더 많은 컴퓨팅을 사용할수록 더 똑똑해진다. 인공지능의 성능을 높이는 방법이 여전히 컴퓨팅에 달려있다면 여전히 NVDA가 수혜를 볼 가능성이 있다.하지만 장밋빛 전망만 있는 것은 아니다.DeepSeek의 효율성과 오픈웨이트로 인한 광범위한 공개는 NVDA의 단기적인 낙관적 성공스토리에 물음표를 달아버렸다.특히. 추론단계에서는 NVDA 칩 외에도 다른 대안 시나리오가 작동하기 시작했다.예를 들어 AMD 칩 하나로도 추론이 가능해진다면 칩간 대역폭이 낮다는 AMD 측의 단점을 상쇄할 수 있게 된다.추론 전용칩이 각광을 받을 수도 있다.요약하자면 NVDA가 사라지진 않을 것이다. 다만 지금까지 고려되지 않았던 불확실성에 노출되었고 이는 하방압력을 키울 수 밖에 없다.Q: 칩 규제는 어떻게 되는건가?A: 칩규제가 더 중요해졌다고 주장할 수도 있겠지만. 2023년의 백악관의 규제가 DeepSeek을 부추긴 것이라고도 볼 수 있기 때문에 단기적으로는 효과가 있더라도 장기적으로는 의문이다.Q: 그럼 왜 중국은 오픈소스를 하는건가?A: 중국이 아니라 DeepSeek이 그렇게 하는거다. CEO 량원펑은 오픈소스야말로 인재를 끌어들이는 핵심이라고 언급했다. Q: 그럼 OpenAI는 망한건가?A: 그렇다고 볼 순 없다. 결국은 AI Take-off에 가장 먼저 도달한 자가 승리한다. 반면 이번 주말의 가장 큰 패배자는 앤트로픽이다. DeepSeek이 앱스토어 1위를 차지하기까지 샌프란시스코 지역 외에서 클로드는 주목조차 끌지 못했다. API가 그나마 잘돌아간다고 어필하지만, DeepSeek 같은 방식대로 디스틸로 프론티어모델이 흔하게 퍼져버리면 가장 먼저 무너지는 쪽이 이 API 비즈니스다. 돈주고 API 쓰느니 성능이 비슷하다면 DeepSeek 같은 오픈웨이트 모델을 쓰기 때문이다.결국 가장 큰 수혜자는 소비자와 기업들이다. 이런 미래는 사실상 무료에 가까운 AI 제품과 서비스를 누릴 수 있게 될 것이기 때문이다. 중국은 이제 자신감이 점점 더 커질 것이다.미국은 선택의 기로에 놓여있다. 더 강경하게 나아갈 것인가, 아니면 더 큰 혁신으로 나아갈 것인가. 연구소들이 이제 로비에 신경쓰지 않고 혁신에만 집중하게된다면, 우린 DeepSeek에게 감사하게 될지도 모른다.
작성자 : KurisuMakise고정닉
차단하기
설정을 통해 게시물을 걸러서 볼 수 있습니다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.