디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

대화형 인공지능 구현을 위한 기반, 대형 언어 모델(LLM)이란?

IT동아갤로그로 이동합니다. 2023.10.04 17:48:54
조회 778 추천 1 댓글 0
[IT동아 남시현 기자] GPT는 사전 학습된 생성형 트랜스포머(Generative Pre-trained Transformer)의 약자다. GPT 등장 이전에는 생성적 사전 훈련(GP)이라는 말이 쓰였는데, 2018년 오픈AI가 GPT-1을 공개하면서 GPT로 쓰이기 시작했다. GPT는 데이터를 사전에 훈련해 둔 다음 제공하는 방식을 활용함으로써 대량의 데이터를 기반으로도 빠르게 대답을 내놓을 수 있는 게 특징이다. 이 방식이 챗GPT에 적용되면서 GPT는 인공지능 업계에서 대명사처럼 쓰이기 시작한다.


출처=셔터스톡



하지만 올해 4월, 오픈AI는 가이드라인을 통해 특정 서비스 명에 GPT라는 이름을 붙일 수 없게 하겠다고 발표했다. GPT라는 개념 자체가 널리 퍼지자 상표권을 행사하겠다는 취지다. 언어 모델 개발사는 GPT라는 이름을 그대로 쓸 수 없고, GPT로 개발된, GPT로 서비스되는 등의 구식어를 붙어야 한다. GPT라는 이름을 사용하기 곤란해지면서 업계에서는 보다 크고 포괄적 개념인 대형 언어 모델(Large Language Model, LLM)이라는 단어를 본격적으로 활용하기 시작한다.

수십~수천억 개의 언어 모델로 구성된 대형 언어 모델



구글은 지난 5월 진행한 구글 I/O 행사에서 2세대 LLM인 PaLM2를 선보였다 / 출처=구글



언어 모델은 단어나 문장이 복잡하게 배열돼 있을 때, 문장의 구성이 통계학적으로 가장 일반적으로 쓰이는 형태를 취하도록 학습된 모델이다. 대형 언어 모델은 이런 언어 모델을 수 억에서 수천억 개 단위로 모아놓은 것이다. 2018년 출시된 구글의 BERT는 33억 개의 단어와 3억 4천만 개의 언어 모델로 구성됐고, 본격적으로 이름을 알리기 시작한 GPT-3는 약 1750억 개의 언어 모델로 구성된다. 구글의 최신 모델인 PaLM 2는 3400억 개의 매개 변수를 사용하고, 화웨이의 판구-Σ는 1조 850억 개를 사용했다고 알려져 있다.

대형 언어 모델이 동작하는 방식은 데이터를 수집한 다음, 계산해서 제공하는 것이다. 우선 데이터는 온라인상에 있는 글과 논문, 뉴스, 서적 등으로 수집하며, 이를 사전 훈련이라고 한다. 매개변수라고 지칭하는 단위가 바로 이 데이터의 양이다. 그 다음 장치를 통해 언어 데이터의 구조와 단어의 의미, 어떤 상황에서 사용되는지 학습하고, 적절한 값으로 제공할 수 있도록 미세 조정한다. 사용자가 질문을 하면 이를 추론하고 저장된 매개변수에서 적절한 값을 생성해 제공한다.


구글이 공개한 의료 전문 LLM인 메드-PaLM / 출처=구글



현재 개발되고 있는 다양한 대형 언어 모델은 자연어가 사용되는 다양한 분야에서 애플리케이션 형태로 쓸 수 있게 제공된다. 지난 7월 공개된 구글의 의료 전문 LLM인 메드-PaLM은 미국 의사면허시험 양식 질문에서 전문가 수준의 성능을 발휘해 복잡하고 어려운 의학적 질문에 대해서도 짧거나 긴 형태로 답변을 받을 수 있다. 또한 의료 보험이나 임상 시험 지원, 암 검진 등에 대해서도 실용적인 대답을 얻을 수 있다.

고객관계관리(CRM) 기업 세일즈포스는 비용 및 주문 가치를 개선하는 커머스 GPT, 영업 담당자에게 필요한 업무 절차를 지원하는 세일즈 GPT, 실시간 데이터를 기반으로 개인화된 응답을 자동으로 제공하는 서비스 GPT와 필드 서비스 GPT 등으로 구성된 아인슈타인 GPT를 활용하고 있다. 인공지능 학습 플랫폼 ‘콴다’의 운영사 매스프레소의 경우에는 학습 수준과 맥락에 맞게 상호작용하고, 도형, 그래프, 손글씨까지 인식하는 기술을 더해 AI 보조 교사인 ‘AI 튜터’의 성능을 고도화할 예정이다.

대형 언어 모델의 현재 진행 상황은?



메타는 지난 달 28일 진행한 ‘메타 커넥트 2023’에서 LLaMA-2 기반의 인공지능 서비스인 메타 AI를 선보였다 / 출처=메타



오픈AI의 GPT가 생성형 AI의 문을 연 것은 맞지만, 시장의 분위기는 구글, 그리고 메타가 이끌어갈 전망이다. 메타는 올해 2월 LLaMA(Large Language Model Meta AI)라는 이름의 대형 언어 모델을 공개했다. 이 모델은 70억 개부터 650억 개 매개변수로 구성된 모델이 있으며, 비상업적 목적으로 제공됐다. 이후 7월에 마이크로소프트와 협력한 LLaMA-2를 공개했다. LLaMA-2는 기존 모델을 고도화함과 동시에 상업적 사용까지 무료로 제공되는 게 특징이다. 전반적인 성능은 GPT보다 우위로 평가되고 있는데, 무료로 쓸 수 있는 만큼 상당한 시장 장악력을 발휘할 것으로 평가받고 있다.

구글의 PaLM(Pathways Language Model)은 5400억 개의 매개변수가 포함된 대형 언어 모델이다. 2022년 4월 처음 발표된 이후 꾸준히 고도화하고 있으며, 지난 7월에 의료 분야에서 활용할 수 있는 메드-PaLM으로 공개됐다. 또한 로봇 조작에 사용할 수 있는 PaLM-E라는 모델도 공개됐고, 음성을 다른 음성으로 변환하는 오디오PaLM도 있다.

2세대 버전인 PaLM 2는 구글의 대화 생성형 AI인 바드(Bard)를 지원하고, 자바스크립트나 파이썬 등 20개의 프로그래밍 언어를 훈련해 코딩 용도로도 쓸 수 있다. 구글은 메타와 달리 신중하게 서비스를 공개하고 있지만, 구글 검색엔진 자체의 점유율과 100개 이상의 언어를 지원하는 성능으로 뒷심을 발휘할 것으로 예상된다.


네이버의 클로바X는 대화형 AI를 넘어 외부 서비스와 연동된다는 특징이 있다 / 출처=네이버



국내에서는 네이버의 클로바X가 강세다. 클로바X는 2040억 개의 매개변수를 갖췄으며, 한국어에 특화된 모습을 보여준다. 핵심 기능은 생성형 AI 검색 ‘큐(CUE):’로 접할 수 있으며, 네이버 내외부에 구축된 다양한 API를 연결하는 시스템 ‘스킬(skill)’을 통해 언어모델 자체의 한계를 보완한다. 물론 초기 공개 이후 가치판단이 필요한 답변을 피하거나, 국문을 제대로 이해하지 못하고 엉뚱한 답변을 제공하는 등의 모습을 보이면서 부정적인 평가를 받고 있으나, 한국어 기반이라는 강점을 내세우며 차근차근 성장하리라 본다.

인공지능 산업의 중심 된 대형 언어 모델


대형 언어 모델이 주목받고 있는 이유는 실용성 덕분이다. 이미 구글과 메타는 십수 년 전부터 인공지능을 개발해 왔지만, 연구 과정은 비밀에 부쳐왔다. 개발은 하되, 어디에 어떻게 쓰일지를 보여주지 않는 식으로 이목을 피해왔다. 하지만 오픈AI가 GPT3로 대화형 인공지능이라는 새로운 활용 방안을 제시했고, 누구나 체감할 수 있는 방식으로 인공지능을 접하게 되면서 주목을 받는 것이다.


메타의 LLaMA 2는 텍스트로 구현되지 않는 분야에 대한 도전, 안전과 책임, 개발자 커뮤니티 지원에 일차적인 초점을 맞추고 있다 / 출처=메타



하지만 대형 언어 모델의 가장 큰 한계는 명확한 목표를 두고 개발하는 것이 아니라는 점이다. 대형 언어 모델을 활용한 생성형 AI 역시 자율적인 사고가 가능한 인공 일반지능 구현이 궁극적 목표긴 하나, 지금의 언어 모델은 어떤 상한선이 규정되지도 않고 달성 가능한 목표가 수립된 것도 아니다. 아무리 완벽하고 고도화되어도 데이터에 없는 해답을 내놓을 수는 없는 게 한계다.

대형 언어 모델 자체의 목표가 불투명하다 보니 현 상황에서는 대다수 기업들이 매개변수 규모를 키우고, 큰 언어 모델을 기반으로 원하는 대답을 내놓는 것에 초점을 맞추고 있다. 하지만 매개변수를 늘리고 활용도가 많아질수록 많은 자원이 소비되고, 이 비용은 기업이 부담하게 된다. 메타의 경우 개방적이면서도 효율적인 기초 언어 모델 구현을 목표로 한다. 인공 일반지능이 구현되지 않는다면 대다수 모델이 메타처럼 생태계를 구축하고 보다 효율적으로 진화하는 방향을 목표로 잡으리라 본다.

글 / IT동아 남시현 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ 퀄컴, 증강·확장현실 스냅드래곤으로 공간 컴퓨팅 공략▶ 메타, MR 헤드셋 '퀘스트3' 공개…AI 챗봇도 첫선▶ AI 독주 노리는 마이크로소프트, 윈도우 11에 '코파일럿' 도입



추천 비추천

1

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 손해 보기 싫어서 피해 입으면 반드시 되갚아 줄 것 같은 스타는? 운영자 24/11/18 - -
4564 [생활 속 IT] 카카오톡 팀채팅, 입력코드로 한꺼번에 친구 추가한다 [1] IT동아갤로그로 이동합니다. 11.23 66 0
4563 [투자를IT다] 2024년 11월 3주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 11.23 6090 0
4562 [창업도약+경북대] 허드슨에이아이 “팀버(Timbr)로 크리에이터 글로벌 진출 가교 역할할 것” IT동아갤로그로 이동합니다. 11.22 72 0
4561 [ENSL 2024] 누구나 쉽게 버튜버 만들어주는 동영상 서비스 ‘에이플라’ [7] IT동아갤로그로 이동합니다. 11.22 5126 2
4560 [리뷰] AI PC로 거듭난 비즈니스 노트북, 에이수스 엑스퍼트북 P5(P5405) [2] IT동아갤로그로 이동합니다. 11.22 782 0
4559 [부산창경 BEF 2024] 바다플랫폼 “블록체인 세이피안, 식품 생산·유통 안전 지킨다” IT동아갤로그로 이동합니다. 11.22 90 0
4558 [부산창경 BEF 2024] 엘리코퍼레이션 “인도 여성 인권 신장하는 콘택트렌즈 전문 브랜드” IT동아갤로그로 이동합니다. 11.22 76 0
4557 [창업도약+경북대] 에이스에듀 “버추얼 아이돌로 전 세계에 K-콘텐츠의 매력 알릴 것” IT동아갤로그로 이동합니다. 11.22 71 0
4556 전문가가 제시하는 스타트업 ESG 경영 전략…’2024 서울 스타트업 ESG 포럼’ [1] IT동아갤로그로 이동합니다. 11.21 1743 0
4555 수원대학교 'WoW 스타트업 브랜치 오픈이노베이션' 개최 IT동아갤로그로 이동합니다. 11.21 104 0
4554 [스타트업리뷰] 로닉 “인공지능 맞춤형 음식 도우미, AI 로봇셰프 큐브” IT동아갤로그로 이동합니다. 11.21 4828 0
4553 [IT기획자의 탄생] 3. IT기획자에게 필요한 상상력과 글로벌 전략 IT동아갤로그로 이동합니다. 11.21 113 0
4552 [IT’s 가성비] 삼성 크리스탈 UHD TV, 2024년형/85인치 모델에 눈길? IT동아갤로그로 이동합니다. 11.21 1917 0
4551 [스케일업] 클리카 [3] 피터 노빅과의 대담으로 살펴본 'AI 스타트업'의 방향성 IT동아갤로그로 이동합니다. 11.21 112 0
4550 [생활 속 IT] LG 가전 활용도 넓히는 'LG ThinQ' 연결 및 사용법 IT동아갤로그로 이동합니다. 11.21 102 0
4549 [생활 속 IT] 소프트웨어 활용 습관 바꿔줄 윈도 11 ‘가상 데스크톱’ [1] IT동아갤로그로 이동합니다. 11.20 215 0
4548 [부산창경 BEF 2024] 기술로 문제 풀이와 오답 노트 작성 효율 높인 ‘프라이머스’ IT동아갤로그로 이동합니다. 11.20 120 0
4547 IBM-연세대, 슈퍼컴 능가하는 127 큐비트 양자컴퓨터 국내 첫 도입 [3] IT동아갤로그로 이동합니다. 11.20 4917 4
4546 [주간스타트업동향] 휴머닉스, 위플로 CES 2025 혁신상 수상 外 IT동아갤로그로 이동합니다. 11.20 192 0
4545 [부산창경 BEF 2024] 만만한녀석들 “모듈형 집기로 친환경 MICE 산업 선도한다” IT동아갤로그로 이동합니다. 11.20 113 0
4544 [부산창경 BEF 2024] 나누기월드 “외국인 유학생, 장애인 문제 해결에 기여” [4] IT동아갤로그로 이동합니다. 11.20 367 0
4543 선박 제조업의 디지털 전환 이끄는 ‘버추얼 트윈’ 기술 IT동아갤로그로 이동합니다. 11.19 140 0
4542 에릭슨엘지 “네트워크도 API로 제공…개발자 참여 독려해야” IT동아갤로그로 이동합니다. 11.19 136 0
4541 [IT애정남] 노트북 SSD의 OEM 파티션, 삭제해도 되나요? IT동아갤로그로 이동합니다. 11.19 135 0
4540 [부산창경 BEF 2024] 그린에너지(주) “산업 현장 악취·유해물질 플라즈마로 해결” IT동아갤로그로 이동합니다. 11.19 134 0
4539 [자동차와 法] 행락철 교통사고 책임과 법적 대처 방안 IT동아갤로그로 이동합니다. 11.19 726 0
4538 아이작 컨셉츠 김태영 대표, "반도체·열유체 공학의 산학협력 교두보 만들겠다" IT동아갤로그로 이동합니다. 11.19 131 0
4537 [시승기] 돋보이는 디자인과 안전 사양 ‘KGM 액티언’ [1] IT동아갤로그로 이동합니다. 11.18 452 0
4536 +불필요한 PC 앱, 지우려면 이렇게! [이럴땐 이렇게!] [1] IT동아갤로그로 이동합니다. 11.18 5194 5
4535 [스케일업] 반프 [3] 정예솔 전략총괄 “반프의 가치, 글로벌 시장에서도 매력적” IT동아갤로그로 이동합니다. 11.18 158 0
4534 [주간투자동향] 숨빗AI, 50억 원 규모 시드 투자 유치 外 IT동아갤로그로 이동합니다. 11.18 149 0
4533 [투자를IT다] 2024년 11월 2주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 11.16 245 0
4532 [스케일업] 보라웨어 [2] 전영복ㆍ이효주 “구성원 복지ㆍ기업 성장이 공존하는 곳” IT동아갤로그로 이동합니다. 11.15 238 0
4531 [생성 AI 길라잡이] 8종의 AI 모델 골라 쓰는 ‘SKT 에이닷’ 웹 버전 IT동아갤로그로 이동합니다. 11.15 228 0
4530 디지포레, “제조산업의 디지털 전환, ‘팩토리얼 프로’로 앞당길 것" IT동아갤로그로 이동합니다. 11.15 220 0
4529 [리뷰] 모니터링 헤드폰의 새로운 기준점 제시, 소니 MDR-M1 [5] IT동아갤로그로 이동합니다. 11.15 6311 1
4528 [2024 고려대] 스페이스점프 “자영업·소상공인 기자재의 모든 것, 소상공간” IT동아갤로그로 이동합니다. 11.15 207 0
4527 퀄컴, 온디바이스 AI·차량 전동화에 초점 맞춘 최신 솔루션 선보여 IT동아갤로그로 이동합니다. 11.15 227 0
4526 [창업도약+경북대] 비빔블 “비커스ㆍ버튜디오로 상상 이상의 가상경험 제공할 것” IT동아갤로그로 이동합니다. 11.15 186 0
4525 [AI와 미래] 기존 저작물은 AI 학습에 어디까지 활용할 수 있을까? IT동아갤로그로 이동합니다. 11.15 1408 0
4524 [월간자동차] 24년 10월, 신차 등록 두 달 연속 증가…싼타페 판매 1위 IT동아갤로그로 이동합니다. 11.15 183 0
4523 [리뷰] 10G 업링크 지원 네트워크 스위치, 넷기어 GS108MX IT동아갤로그로 이동합니다. 11.14 206 0
4522 데이터 주권 강조하는 소버린 AI, 진정한 의미는? [1] IT동아갤로그로 이동합니다. 11.14 777 0
4521 [스케일업] 스쿨버스 [3] 통학버스 전문 플랫폼 개발자 인터뷰 IT동아갤로그로 이동합니다. 11.14 209 0
4520 [UDC 2024] 다양한 산업을 변화시키는 블록체인의 힘 IT동아갤로그로 이동합니다. 11.14 201 0
4519 로봇과 문화예술의 만남, 브이디컴퍼니x장 줄리앙의 종이세상 IT동아갤로그로 이동합니다. 11.14 360 0
4518 [IT애정남] 갤럭시워치를 아이폰과 연결해서 쓸 수 있나요? IT동아갤로그로 이동합니다. 11.13 4693 0
4517 [신차공개] BMW ‘뉴 4시리즈 그란 쿠페’·로터스 ‘에메야’ 공식 출시 [3] IT동아갤로그로 이동합니다. 11.13 4833 1
4516 [스타트업-ing] 오아시스 스튜디오 “OVP·오닉스·디보틀로 콘텐츠 에코시스템 구축” IT동아갤로그로 이동합니다. 11.13 215 0
4515 [생활 속 IT] 취업 서류, 정부24에서 내려받는 법 IT동아갤로그로 이동합니다. 11.12 247 0
뉴스 JYP엔터테인먼트, 7인조 신인 보이그룹 '킥플립' 내년 첫선 디시트렌드 11.23
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2