갤러리 이슈박스, 최근방문 갤러리
연관 갤러리
애니-일본 갤러리 타 갤러리(0)
이 갤러리가 연관 갤러리로 추가한 갤러리
0/0
타 갤러리 애니-일본 갤러리(0)
이 갤러리를 연관 갤러리로 추가한 갤러리
0/0
개념글 리스트
1/3
- [단독] 성범죄 전담 검사 출신 변호사, 알고 보니 성범죄 전과자 정치마갤용계정
- 남해에서 수제 식혜 기부한 염정아.jpg 감돌
- 30대의 유튜브 알고리즘 구경해 보는 초등학생.jpg 브페.8
- 싱글벙글 방금 새 유튜브 업로드한 북한 레지스탕스 채널 ㅇㅇ
- "이거 치워!" 손짓 휘휘, 찰스 3세 또 '짜증 폭발'.jpg ㅇㅇ
- 롯데리아 불고기 포텐버거 후기.jpg dd
- ■오늘자 네이마르 공격수 이상형 월드컵 ㅋㅋ.JPG 해갤러
- 폰아레나의 갤럭시 Z 플립6 리뷰 요약 SundayMove
- 최재천 저격함. ㅁㅇㄹ
- 어느 패션 유튜버가 생각하는 다양한 패션 소화에 적합한 몸.jpg ㅇㅇ
- 싱글벙글 현대로템 '그 손가락' 근황 ㅇㅇ
- 소원으로 덱스랑 술 한잔 써서 총으로 맞춘 태연.jpg 감돌
- 매년 장마철에 강가에서 캠핑하다 죽는 사람 나오는 이유... 시마시마
- (스압)지금 핫한 그쉼터 옜날에 수십마리 죽인건 암? ㅇㅇ
- 싱글벙글 도감피셜 ㅈㄴ 맛있는 포켓몬들을 알아보자.jpg 짜잔
라이브 비디오를 실시간 스타일 변환하는 'Live2Diff' 등장
https://www.aitimes.com/news/articleView.html?idxno=161703 라이브 비디오를 실시간 스타일 변환하는 AI 도구 등장 라이브 비디오 스트림을 즉시 애니메이션으로 변환하는 인공지능(AI) 도구가 나왔다. 기존과는 다른 '단방향 어텐션 모델링(uni-directional attention modeling)' 방식으로 성능을 높였다는 설명이다. 벤처비트는 17일(현지시간) 상하이 AI연구실과 막스 플랑크 정보학연구소, 난양이공대학교 연구진이 라이브 비디오 스트림을 실시간으로 스타일 변환하는 AI 도구 ‘라이브2디프(Live2Diff)’ 논문을 아카이브에 게재했다고 전했다.라이브2디프는 라이브 비디오 스트림 처리를 위한 비디오 확산(diffusion) 모www.aitimes.com라이브 비디오 스트림을 즉시 애니메이션으로 변환하는 인공지능(AI) 도구가 나왔다. 기존과는 다른 '단방향 어텐션 모델링(uni-directional attention modeling)' 방식으로 성능을 높였다는 설명이다. 벤처비트는 17일(현지시간) 상하이 AI연구실과 막스 플랑크 정보학연구소, 난양이공대학교 연구진이 라이브 비디오 스트림을 실시간으로 스타일 변환하는 AI 도구 ‘라이브2디프(Live2Diff)’ 논문을 아카이브에 게재했다고 전했다.라이브2디프는 라이브 비디오 스트림 처리를 위한 비디오 확산(diffusion) 모델에 단방향 어텐션 모델링을 구현한 첫번째 사례로 소개됐다.일반적으로 비디오 확산 모델은 기반이 되는 트랜스포머 아키텍처의 기본 구성 요소인 어텐션 메카니즘의 양방향 특성 때문에 라이브 비디오 스트림에 대한 실시간 처리가 불가능하다. 일반적으로 문장 속 단어와 같은 순차 데이터를 학습해 맥락과 의미를 추적하는 트랜스포머 모델은 서로 떨어져 있는 데이터 요소들의 관계를 이해하는 데 어텐션 메커니즘을 사용한다.이런 트랜스포머의 어텐션 메커니즘을 라이브 비디오에 적용할 경우, 비디오 프레임 간의 관계를 이해하기 위해 과거 프레임과 미래 프레임 모두에 대해 시간적으로 양방향 처리가 필요하다. 특히 미래 프레임을 처리를 위해서는 지연이 불가피하다.이 문제를 해결하기 위해 라이브2디프는 각 프레임에 대해 미래 프레임 없이 과거 프레임과 몇 개의 초기 워밍업 프레임만 연관시켜 시간이 흘러도 일관성을 유지하는 단방향 어텐션 모델링을 도입했다.연구진은 "우리의 접근 방식은 미래 프레임 없이도 시간적 일관성과 자연스러움을 보장한다”라며 “이는 실시간 비디오 번역 및 처리를 위한 새로운 가능성을 열어준다"라고 설명했다.특히 이 기술은 엔비디아 '4090 GPU'와 같은 일반 소비자 하드웨어에서 초당 16프레임의 속도로 비디오를 실시간 온디바이스 처리하도록 최적화됐다.연구진은 실시간 웹캠 입력을 사용해 얼굴을 애니메이션 스타일 캐릭터로 변환하는 라이브2디프의 능력을 시연했다. 광범위한 실험 결과, 라이브2디프가 시간적 일관성과 자연스러움에서 기존 방법을 능가한다는 것을 양적 측정 및 사용자 연구에서 확인했다고 전했다.라이브2디프는 엔터테인먼트 산업에서 실시간 스트리밍과 가상 이벤트를 재정의할 수 있는 잠재력을 가지고 있다는 평이다.증강 현실(AR)과 가상 현실(VR) 분야에서 몰입형 경험을 향상할 수 있고, 실시간 스타일 전송을 통해 실시간 비디오 피드에서 현실 세계와 가상 환경 간의 간극을 줄일 수 있다. 또 게임이나 가상 투어, 건축 및 디자인과 같은 전문 분야에서도 응용될 수 있다.연구진은 라이브2디프의 전체 코드를 곧 오픈 소스로 공개할 계획이다.https://arxiv.org/html/2407.08701v1 Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Modelsarxiv.org
작성자 : ㅇㅇ고정닉
7월 19일 시황
ㅡㅡㅡㅡㅡ 테크 뉴스 ㅡㅡㅡㅡㅡ 반도체 섹터 관련 및 TSMC 실적 ㅡㅡㅡㅡㅡ 넷플릭스 실적 ㅡㅡㅡㅡㅡ 애플 ㅡㅡㅡㅡㅡ AI 관련 (feat TESLA) (상대적으로)소형모델들을 비교하면 아래와 같은 결과라고 함. 이에 대한 안드레 카파시의 견해 ===== 번역) LLM 모델 크기 경쟁이 점점 더 치열해지고 있습니다… 그것도 역방향으로요! 저는 앞으로 아주 작지만 매우 똑똑하고 신뢰할 수 있는 모델이 나올 것이라고 예상합니다. 아마도 GPT-2의 파라미터 설정 중에서도 대부분의 사람들이 GPT-2를 "똑똑하다"고 생각할 만한 설정이 있을 것입니다. 현재 모델이 이렇게 큰 이유는 우리가 훈련하는 동안 매우 낭비적으로 사용하고 있기 때문입니다. 모델들에게 인터넷을 암기하도록 요청하고 있는데, 놀랍게도 모델들은 이를 실제로 암기할 수 있고 예를 들어 SHA 해시나 희귀한 사실들을 기억해낼 수 있습니다. (사실 LLM은 암기 능력이 인간보다 질적으로 훨씬 뛰어나며, 때로는 단 한 번의 업데이트로 많은 세부 사항을 오랫동안 기억할 수 있습니다.) 하지만 첫 몇 단어를 주면 인터넷의 임의의 구절을 암기하여 외우는 것이 목표라면, 이는 오늘날 모델의 표준 (사전) 훈련 목표입니다. 더 잘하는 것이 어려운 이유는 훈련 데이터에서 사고의 데모가 지식과 "얽혀" 있기 때문입니다. <이부분 해설하자면, 즉, 모델이 지식의 암기보다는 사고 능력을 훈련할 수 있도록 데이터를 이상적인 형식으로 만들어야 한다는 것. 이를 통해 모델은 작은 크기에서도 뛰어난 사고 능력을 발휘할 수 있게 될 것.> 따라서 모델들은 먼저 더 커져야 나중에 더 작아질 수 있습니다. 왜냐하면 우리는 이상적인 합성 형식으로 훈련 데이터를 리팩터링하고 형성하는 데 있어 그들의 (자동화된) 도움이 필요하기 때문입니다. 이것은 개선의 계단과도 같습니다. 한 모델이 다음 모델을 위한 훈련 데이터를 생성하는 데 도움을 주는 과정이 반복되면서 결국 "완벽한 훈련 세트"에 이르게 됩니다. 이를 GPT-2에 훈련시키면 오늘날의 기준으로 매우 강력하고 스마트한 모델이 될 것입니다. 어쩌면 화학을 완벽하게 기억하지 못해서 MMLU 점수가 조금 낮을 수 있지만, 때로는 확인을 위해 무언가를 찾아볼 필요가 있을 수도 있습니다. 이것은 테슬라의 자율 주행 네트워크와 크게 다르지 않습니다. AI 데이에서 발표된 "오프라인 트래커"는 무엇일까요? 이것은 합성 데이터 생성 프로세스입니다. 이전의 더 약한 모델들(예를 들어, 단일 프레임 모델이나 바운딩 박스만 사용하는 모델들)을 클립에서 오프라인 3D+시간 재구성 과정에서 실행하여 더 깨끗한 훈련 데이터를 대규모로 생성하는 것입니다. 이렇게 생성된 데이터는 3D 멀티캠 비디오 네트워크를 직접적으로 위한 것입니다. LLM에서도 동일한 방식이 적용되어야 합니다. ======= 한 줄 요약하자면 아래와 같음. 이에 대한 일론머스크의 답글 소형모델의 성능이 점차 개선된다면, 즉 점점 더 대형의 모델로 가는 게 아니라, 대형에서 소형으로 압축되면서도 성능이 올라간다면, 학습을 위한 대규모의 GPU 수요는 어느 순간 급격하게 줄어들 수 있음. 대신 추론용 칩이 필요. 개인적으로 엔비디아의 고점을 '일부' 제한할 수 있는 요소로 판단. ㅡㅡㅡㅡㅡ 테슬라 ㅡㅡ ㅡㅡ ㅡㅡ ㅡㅡ ㅡㅡ ㅡㅡ 전기차 가성비있게 만들고 파는 건 어려움. 근데 테슬라는 풀케파로 돌리는 중이라고 함. ㅡㅡ
작성자 : 우졍잉고정닉
차단하기
설정을 통해 게시물을 걸러서 볼 수 있습니다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.