갤러리 이슈박스, 최근방문 갤러리
연관 갤러리
남자 연예인 갤러리 타 갤러리(0)
이 갤러리가 연관 갤러리로 추가한 갤러리
0/0
타 갤러리 남자 연예인 갤러리(0)
이 갤러리를 연관 갤러리로 추가한 갤러리
0/0
개념글 리스트
1/3
- 싱글벙글 엠파이어스테이트 빌딩 근황 44
- 존맛이라는 그릭 요거트 복숭아 만드는 법 ㅇㅇ
- 후쿠오카 날닭고기와 똥꾸릉내 액기스.jpg dd
- 와들와들 남자 연예인들이 게이들 눈치보는 이유...jpg ㅇㅇ
- 이대남 “일본 호감” 삼대녀 “일본 비호감” 왜 다를까? ㅇㅇ
- 화채를 처음 먹어보는 일본인 아내 ㅇㅇ
- 체대생 선배 누나와 회식 만화 묘냥이
- 아마도 한국 유일시계 Bremont Argylle 기추 Bregay
- 싱글벙글 이탈리아에서 아이스아메리카노 만드는 파브리 수인갤러리
- 청진항에 내리지말고 일본으로 돌아가라, 이만갑 부갤러
- 린·이수, 결혼 11년 만에 이혼…"각자 위치에서, 서로 응원" ㅇㅇ
- 분노의 방화 사형수 ㅇㅇ
- 케이팝 데몬 헌터스.. 페미니즘 논란 ..jpg 3dd
- 일제강점기 일본군 프리패스 관상이라는 이정현 배우 ㄷㄷ..JPG ㅇㅇㅇ
- 소심했던 20대 침착맨에게 큰 변화를 준 인물.jpg ㅇㅇ
AI 비디오 생성 모델의 연도별 발전
2016년MIT와 컬럼비아 대학교의 연구GAN(생성적 적대 신경망) 이라는 방식의 모델딥러닝으로 2백만개의 영상을 학습해서 만듬64x64의 해상도로 초당 32프레임, 최대 1.5초까지의 영상을 만들수 있음해변아기https://www.cs.columbia.edu/~vondrick/tinyvideo/ Generating Videos with Scene Dynamics - MITGenerating Videos with Scene Dynamics - MITwww.cs.columbia.edu2017년위 모델을 토대로 개선된 모델사이즈와 프레임은 같지만 퀄리티가 아주 약간은 올라간걸 볼 수 있음https://pfnet-research.github.io/tgan/ Temporal Generative Adversarial Nets with Singular Value ClippingTemporal Generative Adversarial Nets with Singular Value Clippingpfnet-research.github.io2018년듀크 대학교Text to Video를 구현하기 시작텍스트에서 정적 및 동적 정보를 모두 추출하고딥러닝 학습용 온라인 영상에 매칭할 텍스트를 자동 생성함https://ojs.aaai.org/index.php/AAAI/article/view/122332019년딥마인드DVD-GAN 이라는 모델유튜브 HD 비디오 10초 클립을 600개의 카테고리로 나눈 50만개의 동영상으로 학습함최대 256x256 해상도 48프레임까지 생성 가능함https://arxiv.org/abs/1907.06571 Adversarial Video Generation on Complex DatasetsGenerative models of natural images have progressed towards high fidelity samples by the strong leveraging of scale. We attempt to carry this success to the field of video modeling by showing that large Generative Adversarial Networks trained on the complex Kinetics-600 dataset are able to produce video samples of substantially higher complexity and fidelity than previous work. Our proposed model, Dual Video Discriminator GAN (DVD-GAN), scales to longer and higher resolution videos by leveraging a computationally efficient decomposition of its discriminator. We evaluate on the related tasks of video synthesis and video prediction, and achieve new state-of-the-art Fréchet Inception Distance for prediction for Kinetics-600, as well as state-of-the-art Inception Score for synthesis on the UCF-101 dataset, alongside establishing a strong baseline for synthesis on Kinetics-600.arxiv.org2021년마이크로소프트-듀크 대학교의 프로젝트 GODIVA당시 영상 생성에서는 드물게 VQ-VAE(벡터 양자화 자동 인코더)모델을 사용함 (DALL-E가 VQ-VAE)Text to Video1억 3,600만개의 텍스트-비디오 쌍으로 학습“야구 경기가 진행중” 이라는 프롬프트로 알아서 야구장 모습과 선수의 클로즈업이 이어서 나오는 흥미로운 결과가 나옴최대 128x128 해상도 10프레임https://www.researchgate.net/publication/351278868_GODIVA_Generating_Open-DomaIn_Videos_from_nAtural_Deions2022년 5월중국 청화대학교 - CogVideo청화대의 Text to Image 모델인 CogView2를 사용한 Text to Video94억개 파라미터, 540만개의 텍스트-영상 세트를 학습함최대 480x480 해상도 4초간 32프레임2022년 9월메타의 Make-A-Video이미지 모델인 Make-A-Scean의 후속 모델디퓨전 기반Text to Video, Image to Video, Video to VideoWebVid-10M과 HD-VILA-100M이라는 2개의 데이터 세트(슈백만개, 수십만 시간분의 영상)로 학습최대 64x64 해상도 16프레임 동영상을 768x768로 업스케일링함이 모델의 발표를 기점으로 세간의 관심이 크게 쏠림2022년 10월구글의 Imagen VideoImagen 기반 디퓨전 모델Text to Video, Image to Video, Video to Video1400만개의 텍스트-비디오, 6000만개의 텍스트-이미지, LAION-400M 텍스트-이미지 데이터셋으로 학습24x48 해상도의 초당 3프레임 최대 16프레임을 업스케일링하여 최대 1280x768, 초당 24프레임 최대 128프레임 생성https://imagen.research.google/video/ 2023년Stability AI의 Stable Video Diffusion디퓨전 모델Text to Video, Image to Video, Video to Video학습 데이터 미공개최대 768×1344 해상도, 최대 4.2초상업적 이용 가능2024년 2월OpenAI의 Sora디퓨전 트랜스포머데이터 미공개1080P 시연기준 1분, 공개 배포 기준 20초2024년 5월Google의 Veo구조 미공개데이터 미공개1080P 시연기준 1분 2025년 8월구글 Geine 3네이티브 720P 초당 24프레임 지속시간 수 분일관성 유지와 상호작용Text To World이래도 발전 속도가 둔화 되는거 같아?
작성자 : 봄바다고정닉
차단 설정
설정을 통해 게시물을 걸러서 볼 수 있습니다.
[전체 갤러리]
차단 기능을 사용합니다. 차단 등록은 20자 이내, 최대 10개까지 가능합니다.
설정된 갤러리
갤러리 선택
설정할 갤러리를 선택하세요.
[갤러리]
차단 기능을 사용합니다. 전체 설정과는 별개 적용됩니다.