https://www.gptmagazine.net/bbs/view_image.php?bo_table=gptnews&fn=aa4b5dc0a87455e8ac20ffe339897391_V4mFRAYD_2e9db1bed761d09065c3a5532481195fe1e0b960.jpg" target="_blank" class="view_image">
🔼 텍스트에서 비디오로의 창의적 변환
🔼 비주얼 아티스트와 디자이너를 위한 새로운 가능성
🔼 AI 기반 비디오 제작의 변화
OpenAI가 텍스트 지시를 통해 현실적이며 상상력 넘치는 장면을 창조할 수 있는 새로운 AI 모델인 Sora를 소개했습니다. 이 혁신적인 텍스트-비디오 모델은 최대 1분 길이의 비디오를 생성할 수 있으며, 높은 시각적 품질과 사용자의 프롬프트에 대한 충실도를 유지합니다. 현재, Sora는 잠재적 위험성을 평가하기 위해 레드 팀에 의해 평가되고 있으며, 선택된 시각 예술가, 디자이너, 그리고 영화 제작자들에게도 접근성을 제공하여 창의적 전문가들에게 가장 유용하게 모델을 발전시킬 수 있는 피드백을 얻고 있습니다.
Sora는 여러 캐릭터가 포함된 복잡한 장면, 다양한 종류의 움직임, 그리고 주제와 배경의 정확한 세부 사항을 생성할 수 있는 능력으로 눈에 띕니다. 모델은 사용자가 프롬프트에서 요청한 것뿐만 아니라 그러한 것들이 물리적 세계에서 어떻게 존재하는지를 이해합니다.
모델은 언어에 대한 깊은 이해를 가지고 있어, 프롬프트를 정확하게 해석하고 생동감 있는 감정을 표현하는 매력적인 캐릭터들을 생성할 수 있습니다. Sora는 또한 단일 생성 비디오 내에서 캐릭터와 시각적 스타일을 정확하게 유지하는 여러 장면을 만들 수 있습니다.
그러나, Sora에는 한계가 있습니다. 복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움이 있으며, 특정 원인과 결과의 인스턴스를 이해하지 못할 수 있습니다. 예를 들어, 누군가 쿠키를 한 입 물었지만, 그 후에 쿠키에 물린 자국이 나타나지 않을 수 있습니다.
모델은 또한 프롬프트의 공간적 세부 사항을 혼동할 수 있으며, 시간이 지남에 따라 발생하는 특정 이벤트의 정확한 설명, 예를 들어 특정 카메라 궤적을 따르는 것과 같은 문제에 어려움을 겪을 수 있습니다.
OpenAI 제품에 Sora를 통합하기 전에 여러 중요한 안전 조치를 취하고 있습니다. 오해의 소지가 있는 콘텐츠를 탐지하는 도구를 개발하고, DALL·E 3에서 구축한 기존의 안전 방법을 활용하여, 오용 가능성을 완화합니다.
Sora의 기술은 확산 모델에 기반을 두고 있으며, 정적 노이즈처럼 보이는 비디오에서 시작하여 많은 단계를 거쳐 노이즈를 제거함으로써 명확한 비디오로 변환합니다. 이 모델은 GPT 모델과 유사한 트랜스포머 아키텍처를 사용하여 우수한 확장 성능을 제공합니다.
이 모델은 텍스트 지시만으로 비디오를 생성할 수 있을 뿐만 아니라, 기존의 정지 이미지를 가져와 그 내용을 정확하게 애니메이션화하거나 기존 비디오를 확장하거나 누락된 프레임을 채울 수 있습니다. Sora는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델을 위한 기초를 제공하며, 이는 인공 일반 지능(AGI)을 달성하기 위한 중요한 이정표가 될 것으로 믿습니다.
Sora와 그 기능에 대한 자세한 내용은 OpenAI가 발표한 기술 보고서에서 확인할 수 있습니다.
◎GPT매거진 (https://www.gptmagazine.net)
지피티 기자 : gptmagazinebiz@gmail.com
카카오 오픈채팅방 : https://open.kakao.com/o/gLI8Wetf
페이스북 그룹 : https://www.facebook.com/groups/392367786704067
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.