갤러리 이슈박스, 최근방문 갤러리
연관 갤러리
판타지 갤러리 타 갤러리(0)
이 갤러리가 연관 갤러리로 추가한 갤러리
0/0
타 갤러리 판타지 갤러리(0)
이 갤러리를 연관 갤러리로 추가한 갤러리
0/0
개념글 리스트
1/3
- 당근마켓.. 사기 레전드 ..jpg 3dd
- 트롯 신동 쌍둥이 자매는 뭐하고 있나 ㅇㅇ
- 홍반 볶음밥 풀버젼 백갤러
- 김민재 미친 돌파... 시즌 1호 어시.gif ㅇㅇ
- 군자의 복수는 53년이 걸려도 늦지 않다 ㅇㅇ
- 여행하는 김씨 <- 싸가지 없는 이유....jpg ㅇㅇ
- 한국에서 인기 없는 녹차 대한민국인디언
- UFC 챔피언의 인생을 알아보자 [은가누 편] U갤러
- 北, 중부전선 대남확성기 2대 추가 설치…軍 '침묵' 포만한
- 장원영이 집에서 안 눕는.. 이유 ..jpg 3dd
- 쿨 재팬은 어떤 식으로 매출을 부풀리는가 ㅇㅇ
- 근무시간 12시간 하루일당 8300원 ㅇㅇ
- 살다살다 다리가 무너지는 것은 ㅇㅇ
- 재매이햄 일본 수산물 발언 ㄴㅇㅇㄱ
- 체대생 선배 누나와 회식 만화 묘냥이
AI 비디오 생성 모델의 연도별 발전
2016년MIT와 컬럼비아 대학교의 연구GAN(생성적 적대 신경망) 이라는 방식의 모델딥러닝으로 2백만개의 영상을 학습해서 만듬64x64의 해상도로 초당 32프레임, 최대 1.5초까지의 영상을 만들수 있음해변아기https://www.cs.columbia.edu/~vondrick/tinyvideo/ Generating Videos with Scene Dynamics - MITGenerating Videos with Scene Dynamics - MITwww.cs.columbia.edu2017년위 모델을 토대로 개선된 모델사이즈와 프레임은 같지만 퀄리티가 아주 약간은 올라간걸 볼 수 있음https://pfnet-research.github.io/tgan/ Temporal Generative Adversarial Nets with Singular Value ClippingTemporal Generative Adversarial Nets with Singular Value Clippingpfnet-research.github.io2018년듀크 대학교Text to Video를 구현하기 시작텍스트에서 정적 및 동적 정보를 모두 추출하고딥러닝 학습용 온라인 영상에 매칭할 텍스트를 자동 생성함https://ojs.aaai.org/index.php/AAAI/article/view/122332019년딥마인드DVD-GAN 이라는 모델유튜브 HD 비디오 10초 클립을 600개의 카테고리로 나눈 50만개의 동영상으로 학습함최대 256x256 해상도 48프레임까지 생성 가능함https://arxiv.org/abs/1907.06571 Adversarial Video Generation on Complex DatasetsGenerative models of natural images have progressed towards high fidelity samples by the strong leveraging of scale. We attempt to carry this success to the field of video modeling by showing that large Generative Adversarial Networks trained on the complex Kinetics-600 dataset are able to produce video samples of substantially higher complexity and fidelity than previous work. Our proposed model, Dual Video Discriminator GAN (DVD-GAN), scales to longer and higher resolution videos by leveraging a computationally efficient decomposition of its discriminator. We evaluate on the related tasks of video synthesis and video prediction, and achieve new state-of-the-art Fréchet Inception Distance for prediction for Kinetics-600, as well as state-of-the-art Inception Score for synthesis on the UCF-101 dataset, alongside establishing a strong baseline for synthesis on Kinetics-600.arxiv.org2021년마이크로소프트-듀크 대학교의 프로젝트 GODIVA당시 영상 생성에서는 드물게 VQ-VAE(벡터 양자화 자동 인코더)모델을 사용함 (DALL-E가 VQ-VAE)Text to Video1억 3,600만개의 텍스트-비디오 쌍으로 학습“야구 경기가 진행중” 이라는 프롬프트로 알아서 야구장 모습과 선수의 클로즈업이 이어서 나오는 흥미로운 결과가 나옴최대 128x128 해상도 10프레임https://www.researchgate.net/publication/351278868_GODIVA_Generating_Open-DomaIn_Videos_from_nAtural_Deions2022년 5월중국 청화대학교 - CogVideo청화대의 Text to Image 모델인 CogView2를 사용한 Text to Video94억개 파라미터, 540만개의 텍스트-영상 세트를 학습함최대 480x480 해상도 4초간 32프레임2022년 9월메타의 Make-A-Video이미지 모델인 Make-A-Scean의 후속 모델디퓨전 기반Text to Video, Image to Video, Video to VideoWebVid-10M과 HD-VILA-100M이라는 2개의 데이터 세트(슈백만개, 수십만 시간분의 영상)로 학습최대 64x64 해상도 16프레임 동영상을 768x768로 업스케일링함이 모델의 발표를 기점으로 세간의 관심이 크게 쏠림2022년 10월구글의 Imagen VideoImagen 기반 디퓨전 모델Text to Video, Image to Video, Video to Video1400만개의 텍스트-비디오, 6000만개의 텍스트-이미지, LAION-400M 텍스트-이미지 데이터셋으로 학습24x48 해상도의 초당 3프레임 최대 16프레임을 업스케일링하여 최대 1280x768, 초당 24프레임 최대 128프레임 생성https://imagen.research.google/video/ 2023년Stability AI의 Stable Video Diffusion디퓨전 모델Text to Video, Image to Video, Video to Video학습 데이터 미공개최대 768×1344 해상도, 최대 4.2초상업적 이용 가능2024년 2월OpenAI의 Sora디퓨전 트랜스포머데이터 미공개1080P 시연기준 1분, 공개 배포 기준 20초2024년 5월Google의 Veo구조 미공개데이터 미공개1080P 시연기준 1분 2025년 8월구글 Geine 3네이티브 720P 초당 24프레임 지속시간 수 분일관성 유지와 상호작용Text To World이래도 발전 속도가 둔화 되는거 같아?
작성자 : 봄바다고정닉
차단 설정
설정을 통해 게시물을 걸러서 볼 수 있습니다.
[전체 갤러리]
차단 기능을 사용합니다. 차단 등록은 20자 이내, 최대 10개까지 가능합니다.
설정된 갤러리
갤러리 선택
설정할 갤러리를 선택하세요.
[갤러리]
차단 기능을 사용합니다. 전체 설정과는 별개 적용됩니다.