https://www.gptmagazine.net/bbs/view_image.php?bo_table=gptai&fn=aa4b5dc0a87455e8ac20ffe339897391_7hN48pRq_de474915a07d0b90d59c436abf991234e50643cf.png" target="_blank" class="view_image">
🔼 오픈AI의 GPT-4V, 인간의 감정까지 읽어내는 멀티모달 AI
🔼 네이버와 카카오, 멀티모달 AI로 검색 엔진과 챗봇 업그레이드
🔼 구글 제미나이, 멀티미디어 입력을 한번에 처리하는 AI 혁신
인공지능(AI) 기술의 발전은 멈춤 없이 진화하고 있으며, 최근에는 멀티모달 AI로의 진화가 주목받고 있다. 멀티모달 AI는 단순한 텍스트 입력과 처리를 넘어 이미지, 음성, 영상 등 다양한 형태의 데이터를 이해하고 처리할 수 있는 AI를 의미한다. 이러한 진화는 국내외 정보통신기술(ICT) 기업들이 새로운 서비스를 개발하는 데 있어 멀티모달 AI의 활용을 가속화하고 있다.
멀티모달 AI는 사람이 여러 감각을 통해 정보를 종합하듯이, 이미지, 음성, 영상, 제스처 등 다양한 형태의 정보를 이해하고 처리할 수 있다. 이는 AI가 가상 비서, 의료, 쇼핑, 교육 및 학습 보조 도구, 자율주행 등 다양한 영역에서 더욱 효과적으로 활용될 수 있음을 의미한다.
국내에서는 네이버, 카카오, LG 등이 멀티모달 AI를 선도하고 있다. 네이버는 이미지와 텍스트 등 다양한 입력을 조합해 이해하고 검색 결과를 도출하는 멀티모달 검색 엔진 '옴니서치'를 보유하고 있으며, 스마트렌즈를 통해 사물을 촬영하고 텍스트 입력을 추가함으로써 사용자가 원하는 보다 정확한 정보를 얻을 수 있다. 또한, AI 챗봇 '클로바X'에는 이미지 편집 기능이 추가되어, 이미지와 텍스트를 조합한 새로운 요청에 대응할 수 있다.
카카오는 이미지와 텍스트가 혼합된 콘텐츠에 대해 질문을 이해하고 답변할 수 있는 멀티모달 대규모언어모델 '허니비'를 오픈소스로 공개했다. LG의 초거대 AI '엑사원 2.0' 역시 언어와 이미지 양방향 생성이 가능한 멀티모달 모델이다.
해외에서는 오픈AI가 GPT-4V와 같은 멀티모달 AI 모델을 발표하여, 이미지 업로드 시 조리법 생성 및 식재료 분석, 다양한 얼굴 표정의 감정 읽기 등 고도화된 이해도를 보여주고 있다. 구글의 '제미나이'는 텍스트, 동영상, 이미지, 코드, 수학 등 다양한 미디어의 입력을 한 번에 처리할 수 있는 기능을 제공한다.
멀티모달 AI의 발전은 AI 기술이 단순한 텍스트 이해를 넘어 우리의 일상과 밀접한 다양한 형태의 데이터를 이해하고 처리할 수 있는 단계로 나아가고 있음을 보여준다. 이는 AI의 활용 범위를 대폭 넓히며, 미래의 기술 발전에 있어 중요한 이정표가 될 것으로 전망된다.
◎GPT매거진 (https://www.gptmagazine.net)
지피티 기자 : gptmagazinebiz@gmail.com
카카오 오픈채팅방 : https://open.kakao.com/o/gLI8Wetf
페이스북 그룹 : https://www.facebook.com/groups/392367786704067
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.