디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[AI 리뷰] 사람처럼 보고 듣고 말하는 ‘GPT-4o’

리뷰타임스갤로그로 이동합니다. 2024.07.11 08:30:53
조회 2935 추천 4 댓글 1
[리뷰타임스=김우선 기자] OpenAI의 최신 자연어 처리 모델이자 차세대 생성형 AI인 GPT-4o(옴니를 의미하는 o)가 새롭게 공개됐다. 단순한 챗봇 이상의 가능성을 지닌 혁신적인 AI 모델이라는 게 OpenAI의 설명이다. SF 영화 속에 등장하는 인간과 자연스럽게 대화하는 고차원의 AI가 완성되고 있는 것이다.



생성형 AI의 혁신으로 일컬어지는 GPT-4o


 

GPT-4o를 한마디로 표현하면 ‘보고 듣고 말할 수 있는 복합적 AI’이다. 실제로 오픈AI가 공개한 데모 영상을 보면 GPT-4o는 사람처럼 자연스럽게 대화하는 데다 유머 실력까지 갖추고 있다. 기존 AI와 대화는 딱딱할 뿐 아니라, 사람이 말한 내용을 AI가 듣고 나서 답하는 형태였는데 GPT-4o와 대화는 그야말로 물 흐르듯 자연스레 이어진다.



텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오 및 이미지의 모든 조합을 생성한다. 오디오 입력에 대해서 반응속도가 232밀리초 안에 응답할 수 있으며, 평균 320밀리초로 인간의 응답 시간과 비슷하다.



챗GPT가 말하는 와중에 사람이 끼어들어 말할 수 있고, 여러 명의 목소리도 동시에 인식한다. GPT-4o가 응답하는 데 걸리는 시간은 평균 0.32초로 사람과 거의 비슷한 수준으로 진화했다. 기존 GPT-4의 응답 속도는 5.4초였다.



기존 유료모델인 ‘GPT-4 Turbo’보다 2배 빨라졌고, 절반이나 저렴하다. GPT-4 Turbo는 한 번에 12만 8천 개의 ‘토큰(단어량)’을 처리할 수 있고, 월 구독료는 20달러인데 반해 GPT-4o는 ‘GPT-3.5’ 모델처럼 모든 사용자에게 무료로 제공되는데 단, 유료 구독자는 무료 이용자보다 5배 이상 더 많은 메시지를 사용할 수 있다.



GPT-4o 모델 이름에서 o는 옴니(omni)의 줄임말로 ‘모든 것’, ‘어디에나 있다’는 뜻을 포함하고 있다. 오픈AI가 GPT-4o를 ‘AI 종합판’이라고 부르며 자신감을 드러낸 데는 기존 그리고 타 모델과 차별화된 5가지 옴니 기능 때문이다. 아래는 5가지 옴니 기능을 설명한 아이콘이다.




GPT-4o의 5가지 옴니 기능


 

-      텍스트, 이미지, 오디오 등 다양한 형식의 데이터를 처리할 수 있는 멀티모달(multi modal) 기능

-      이미지를 분석하고 설명하며 생성하는 강화된 비전(vision) 기능

-      실시간 웹 정보 검색을 통해 얻은 최신 정보를 기반으로 한 깊이 있는 답변 기능

-      외부 API(응용프로그램 인터스페이스)를 호출해 새로운 기능을 확장할 수 있는 펑션콜(function call) 기능

-      데이터 해석 능력을 바탕으로 한 비즈니스 인사이트 제공 기능 등이다.



주요 특징으로는 △향상된 언어 이해 능력: 이전 모델에 비해 더 높은 정확도로 텍스트를 이해하고 생성할 수 있다. 복잡한 문장 구조와 미묘한 뉘앙스까지 파악하여 자연스러운 대화를 이끌어낸다. △강화된 학습 데이터: 방대한 양의 최신 데이터로 학습된 GPT-4o는 최신 트렌드와 정보를 반영, 이를 통해 사용자에게 더욱 신뢰성 있는 정보를 제공한다. △다양한 언어 지원: GPT-4o는 다국어 지원 능력이 향상되어 다양한 언어를 능숙하게 처리하고 여러 언어 간 번역 능력도 뛰어나다. △맞춤형 응답: 사용자의 요구에 맞춘 개인화된 응답을 생성할 수 있어, 더 유연하고 적절한 대화가 가능하다.



다국어의 경우 기존에도 번역과 통역 기능은 있었지만 거의 즉각적으로 다른 언어 번역이 가능하도록 업그레이드됐다. 이에 따라 한국어 등 20개 언어를 토크나이저 압축으로 기능이 개선됐다. 아이언맨 영화에서 자비스를 장착한 수준으로 실시간 통역이 가능해 영어공부를 더 이상 할 필요가 없는 세상이 올지도 모른다.



GPT-4o에서 무엇보다 주목할 점은 AI가 카메라로 세상을 들여다본다는 점이다. 사람과 자연스럽게 대화가 가능해진 건 카메라를 통해 상대방 표정을 읽어내기 때문이다. 예를 들어, 사람이 수학 문제를 푸는 모습을 비춰주면 풀이 방법을 알려주거나, 컴퓨터 화면 속 코딩에서 잘못된 내용을 지적하는 것도 가능해졌다.




AI가 카메라를 통해 대화가 가능해졌다.


 

GPT-4o는 기존 'GPT-4' 'GPT-4V' 'GPT-4 터보' 등 기존 모델보다 더 빠르고 저렴하며 오디오와 비전 같은 입력으로부터 더 많은 정보를 유지하는 점에서 크게 개선됐다는 설명이다. 기술적으로는 기존에 대형언어모델(LMM)을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 것을 넘어, 모델 3개를 하나로 통합했다.



이미지 인식과 음성 인식, 대답 등을 하나의 모델에서 추론함으로써 모든 대기 시간을 줄이고 사람이 하는 것과 동일한 수준으로 업그레이드됐다. 그 결과 입력된 소리에서 감정을 분석하여 대응할 수 있다. 예를 들어 거친 숨소리를 입력하면 '진정해, 긴장하지마' 라고 말해준다. 또한 데스크톱에서는 코딩을 함께 보면서 이 코딩에서는 어떤 부분을 고쳐야 하는지 음성으로 대화하면서 사람과 영상통화를 하면서 도움을 받는 듯한 느낌마저 준다.



기존 모델들은 여러 다른 모델들을 연결하고 오디오 및 비주얼과 같은 다른 매체를 텍스트로 변환한 후 다시 변환하는 방식을 사용했지만, 새로운 GPT-4o는 단일 모델에서 처음부터 멀티미디어 토큰으로 훈련, 텍스트로 변환하지 않고도 비전과 오디오를 직접 분석하고 해석할 수 있다는 것이다.



종합해보면 GPT-4o는 ‘보고 들으면서 말할 수 있는 복합 지능을 가진 AI’라고 할 수 있다. 인공지능 비서와 실제로 사랑에 빠지는 영화 Her가 점점 현실로 다가오고 있다.



GPT-4o는 모든 글로벌 이용자들에게 무료로 제공하지만, 기존 유료 이용자는 무료 이용자보다 5배 많은 질문을 할 수 있다. GPT-4o는 이날부터 사용 가능하며, 개발자는 이제 API에서 텍스트 및 비전 모델로 GPT-4o에 액세스할 수 있다. 앞으로 ChatGPT Plus 내에서 GPT-4o 알파 버전의 음성 모드 새 버전을 출시할 예정이다.

 

<ansonny@reviewtimes.co.kr>

<저작권자 ⓒ리뷰타임스, 무단전재 및 재배포 금지〉 



review_times

추천 비추천

4

고정닉 0

7

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 손해 보기 싫어서 피해 입으면 반드시 되갚아 줄 것 같은 스타는? 운영자 24/11/18 - -
3007 [교통] 기후동행카드, 경기 고양•과천까지 사용 가능해진다 [1] 리뷰타임스갤로그로 이동합니다. 14:29 1622 0
3006 [식품] 농심, 짜파게티 더블랙 사발 출시 리뷰타임스갤로그로 이동합니다. 14:00 37 0
3005 [AI] 팀뷰어, MS 팀즈에 AI 기반 ‘세션 인사이트’ 통합… IT 지원의 새 시대 열어 리뷰타임스갤로그로 이동합니다. 11:19 34 0
3004 [음식] 막걸리와 어묵의 조화…삼진포차 시즌2 팝업 연장 운영 리뷰타임스갤로그로 이동합니다. 10:22 37 0
3003 [여행 트렌드] 옴짝달싹 하기 싫은 겨울 ‘올 인클루시브’ 여행 주목 리뷰타임스갤로그로 이동합니다. 10:14 1782 1
3002 [요리 리뷰] 김장김치에 찰떡궁합 돼지고기 요리 레시피 [4] 리뷰타임스갤로그로 이동합니다. 09:16 1832 3
3001 [AI] 대원씨티에스, ‘AI 동맹’ 굳건해졌다...노타 및 LG AI연구원과도 맞손 리뷰타임스갤로그로 이동합니다. 07:29 31 0
3000 [HR] 휴먼컨설팅그룹, 60억 자금 조달로 HR SaaS 개발 적극 투자 리뷰타임스갤로그로 이동합니다. 07:04 29 0
2999 [영상 리뷰] 유튜브 내가 쓴 댓글 확인 및 삭제 방법 리뷰타임스갤로그로 이동합니다. 06:51 40 0
2998 [봉사] 한국교직원공제회, 사랑의 김장나눔 봉사활동 진행 리뷰타임스갤로그로 이동합니다. 11.20 58 0
2997 [PC] MSI, 대학 신입생 겨냥 비즈니스 노트북 출시 [3] 리뷰타임스갤로그로 이동합니다. 11.20 4871 0
2996 [영화관] ‘나만 알고싶은 영화관’ MONOPLEX@RYSE, 11월 20일 홍대 라이즈호텔에 그랜드 오픈 [2] 리뷰타임스갤로그로 이동합니다. 11.20 1551 0
2995 [여행 정보] 연말 휴가철 가성비 좋은 아시아 지역 여행지는 어디? 리뷰타임스갤로그로 이동합니다. 11.20 239 0
2994 [DIY 리뷰] 비싼 공임 대신 직접 해결한 문고리 자가 교체기 리뷰타임스갤로그로 이동합니다. 11.20 73 1
2993 [제품 리뷰] 겨울철 자동차를 위한 보약 '프로샷 가솔린 엔진시스템 옥탄부스터' 리뷰타임스갤로그로 이동합니다. 11.20 58 0
2992 [트레킹 리뷰] 국내 최대의 메타세콰이어숲 '장태산 자연휴양림' 리뷰타임스갤로그로 이동합니다. 11.19 4848 4
2991 [식당 리뷰] 분당, 판교지역 추어탕 원탑 청담추어정 리뷰타임스갤로그로 이동합니다. 11.19 87 0
2990 [보안] 사이버 공격 피해 83%는 중소기업 [1] 리뷰타임스갤로그로 이동합니다. 11.19 1731 0
2989 [나들이 리뷰] 겨울 되기 전 늦가을 단풍놀이 떠나보자 리뷰타임스갤로그로 이동합니다. 11.19 1611 0
2988 [보안] 다올티에스, 팔로알토 네트웍스 국내 총판으로 선정 리뷰타임스갤로그로 이동합니다. 11.19 78 0
2987 [음식] 신라면 툼바, 두 달 만에 1100만 개 팔려 리뷰타임스갤로그로 이동합니다. 11.18 130 0
2986 [사찰 리뷰] 무학대사가 창건한 運이 열린다는 사찰 ‘개운사’ 리뷰타임스갤로그로 이동합니다. 11.18 107 0
2985 [모빌리티] 현대차 ‘아반떼 N TCR 에디션’ 공개 리뷰타임스갤로그로 이동합니다. 11.18 117 0
2984 [전시] 한-이탈리아 수교 140주년 기념, 이탈리아 ‘모자이크’의 2000년 역사를 담아낸 미디어아트 전시 개최 리뷰타임스갤로그로 이동합니다. 11.18 1741 0
2983 [가전] 샤오미, 50만원대 올인원 로봇청소기로 국내 시장 상륙 리뷰타임스갤로그로 이동합니다. 11.18 105 0
2982 [증권] 삼성전자 주식 이젠 오를까? 자사주 매입 특단 조치 리뷰타임스갤로그로 이동합니다. 11.18 97 0
2981 [여행] 경기 화성 롤링힐스 호텔, 12월 한달간 메리 호캉스 패키지 운영 리뷰타임스갤로그로 이동합니다. 11.18 100 0
2980 [음식 리뷰] 튀르키예 여행 가면 꼭 먹어봐야 할 음식 ‘버클라바’ [6] 리뷰타임스갤로그로 이동합니다. 11.18 2338 4
2979 [제품 리뷰] 자주봄 애플워치 모던버클 스트랩 "줄질의 종착역이네요" 리뷰타임스갤로그로 이동합니다. 11.18 89 0
2978 [어워드] 해양 내비게이션 맵시, 美 CES 2025 혁신상 수상 리뷰타임스갤로그로 이동합니다. 11.15 190 0
2977 [서버] HPE, 수냉식 HPC 솔루션 및 AI 서버 2종 발표 리뷰타임스갤로그로 이동합니다. 11.15 182 0
2976 [음료] 공차, 크리스마스 감성 물씬 보틀 음료 4종 출시 리뷰타임스갤로그로 이동합니다. 11.15 176 0
2975 [모바일] 5만원짜리 샤오미 스마트워치 국내 출시 일주일만에 “Sold Out” [6] 리뷰타임스갤로그로 이동합니다. 11.15 1824 2
2974 [식당 리뷰] 남도 갯벌의 진수 세발낙지로 유명한 영암 독천낙지명가 리뷰타임스갤로그로 이동합니다. 11.15 172 0
2973 [AI] 로블록스, 창작 및 글로벌 콘텐츠 참여를 가속화하는 AI 기술 확장 리뷰타임스갤로그로 이동합니다. 11.15 150 0
2972 [환경] 그린보트 ‘선상 ESG·AI 리더십 과정’ 모집 리뷰타임스갤로그로 이동합니다. 11.15 146 0
2971 [코인 리뷰] 테슬라 일론 머스크가 띄운 ‘도지코인’은 무엇? [3] 리뷰타임스갤로그로 이동합니다. 11.15 1686 0
2969 [국방] 휴니드, 400억원 규모 軍 전술통신망 후속군수지원 사업 수주 리뷰타임스갤로그로 이동합니다. 11.15 146 0
2968 [AI] 딥엘, 음성 번역 ‘딥엘 보이스’로 AI 통역 도전 리뷰타임스갤로그로 이동합니다. 11.15 141 0
2967 [공모전] 제임스 다이슨 어워드 2024 최종 우승작 2팀 선정 리뷰타임스갤로그로 이동합니다. 11.13 4374 0
2966 [AI] 국내 빅테크 기업들 'AI 클라우드 퓨쳐 서밋' 행사서 노하우 공유 리뷰타임스갤로그로 이동합니다. 11.13 206 0
2965 [리뷰 만평] 수능 학생들을 위한 응원 리뷰타임스갤로그로 이동합니다. 11.13 194 0
2964 [가전] 삼성전자, 당일 배송·설치 서비스 시작 리뷰타임스갤로그로 이동합니다. 11.13 199 0
2963 [공연] 세종문화회관, 70% 할인 '서울시 청소년 데이 티켓' 운영 리뷰타임스갤로그로 이동합니다. 11.13 175 0
2962 [리서치] 세계 2% 연구자수 1위는? 리뷰타임스갤로그로 이동합니다. 11.13 172 0
2961 [모빌리티] 현대자동차 ‘아이오닉 9’ 내장 티저 이미지 공개 리뷰타임스갤로그로 이동합니다. 11.13 172 0
2960 [이슈 리뷰] ‘주식회사 한국인삼공사’는 왜 ‘公社’ 타이틀 달고 있나 [4] 리뷰타임스갤로그로 이동합니다. 11.13 2227 0
2959 [우주] 무궁화위성 6A호 스페이스X 로켓 발사 성공 리뷰타임스갤로그로 이동합니다. 11.13 162 0
2958 [여행 리뷰] 최고의 스톱오버 여행지 이스탄불 1박2일 코스 추천 리뷰타임스갤로그로 이동합니다. 11.13 581 0
2957 [카페 리뷰] 풍경이 그림 같은 곳 '홍차가게 소정' 리뷰타임스갤로그로 이동합니다. 11.12 172 0
뉴스 김장훈, 12월 AI 콘서트 '토닥토닥' 개최....신비한 영상체험 '커밍순' 디시트렌드 14:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2