디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

인공지능의 진화, 설명·목소리만 듣고 사진 한 장 뚝딱

IT동아갤로그로 이동합니다. 2022.04.12 08:23:06
조회 1482 추천 2 댓글 7
[IT동아 차주경 기자] 나날이 발전하는 사진 인공지능 기술이 사람의 능력을 뛰어넘을 기세다. 문장 한두 마디를 듣고 그 설명을 고스란히 그림이나 사진으로 묘사하는 인공지능이 등장했다. 사람의 목소리를 들으면 그 사람의 얼굴 생김새를 추측해 그리는 인공지능도 주목 받는다.

미국 인공지능 개발 기업 ‘오픈AI(OpenAI)’가 개발한 사진 인공지능 ‘DALL-E 2’는 특정 문장 한두 마디를 입력하면 이를 토대로 사진이나 그림을 만든다.


오픈AI DALL-E 2가 문장을 듣고 만든 그림과 사진. 출처 = 오픈AI



위 그림과 사진은 DALL-E 2가 각각 ‘우주에서 고양이와 농구 하는 우주 비행사’와 ‘해변가에 앉은 웰시코기 강아지’를 듣고 만든 것이다. 앞서 인공지능 기술 개발 기업 엔비디아가 이와 비슷한 기술 ‘GauGAN2’를 공개했다. 문장을 듣고 그대로 사진으로 만드는 인공지능이다. 오픈AI의 DALL-E 2는 엔비디아의 GauGAN2보다 사진을 더 선명하게, 고해상도로 만든다. 배경 흐림, 빛 묘사 등 고급 사진 기술도 넣는다.

DALL-E 2는 문장을 듣고 사진에 피사체를 추가하거나, 사진의 구도를 바꾸는 능력도 가졌다. 방 사진을 인식한 후 DALL-E 2에게 ‘방 구석에 노란 색 소파’라고 입력하면 그대로 표현한다. ‘방 왼쪽 구석’을 입력하면 방 사진에는 없는 구석을 스스로 묘사한다. 단, 복잡한 문장이나 표현은 인식하지 못한다. 그림자나 빛의 방향을 다소 어색하게 표현할 때도 있다.

유사한 기술로, 앞서 미국 매사추세츠 공과대학교(MIT)의 컴퓨터 과학·인공지능 연구소(CSAIL) 소속 과학자들이 공개한 목소리 인식 인공지능 기술 ‘Speech2Face’가 화제가 됐었다. 이 인공지능은 사람의 목소리를 듣고 억양과 높낮이, 단어와 발음을 토대로 그 사람의 얼굴 생김새를 추론한다.


실제 사람 사진(왼쪽)과 이들의 목소리를 들은 Speech2Face가 묘사한 인물 사진. 출처 = 깃허브



CSAIL 과학자들은 유튜브에 올라온 동영상 수백만 개를 활용해 사람 얼굴과 목소리의 특성, 관계를 연구했다. 그 결과, Speech2Face는 사람의 목소리만 듣고도 놀라울 정도로 정확하게 그 사람의 얼굴을 재현했다.

이 두 인공지능 기술도 일부 사진 인공지능 기술의 사례와 마찬가지로 나쁘게 쓰일 가능성이 제기됐다. 기술 개발자들은 여러 제한과 안전 장치를 둬서 부작용을 막는다고 밝혔다.

오픈AI는 DALL-E 2가 나쁘게 쓰이지 않도록 음란·폭력·증오 관련 단어와 문구를 데이터베이스에서 지웠다. 사람의 얼굴도 만들지 못하게 설계하고, 이 기술을 일반 소비자에게는 제공하지 않는다. CSAIL은 Speech2Face를 만들 때 유튜브의 동영상을 활용한 만큼, 데이터 분포가 균등하지 않다고 밝혔다. 이어 이 기술을 사람의 목소리의 특징을 연구하고 더 많은 응용 프로그램을 만들기 위해 개발했다고 강조했다.

글 / IT동아 차주경(racingcar@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ 반도체 수급난, 러시아 침공 등 이어지는 악재에 광학 기기 가격 줄인상▶ 고가·고급 미러리스 딛고 디카 시장 부활 기미, 낙관 경계론도▶ 창과 방패의 대결, 인공지능 가짜 사진 vs 가짜 사진 판별 인공지능



추천 비추천

2

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 손해 보기 싫어서 피해 입으면 반드시 되갚아 줄 것 같은 스타는? 운영자 24/11/18 - -
4564 [생활 속 IT] 카카오톡 팀채팅, 입력코드로 한꺼번에 친구 추가한다 IT동아갤로그로 이동합니다. 08:29 9 0
4563 [투자를IT다] 2024년 11월 3주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 00:28 21 0
4562 [창업도약+경북대] 허드슨에이아이 “팀버(Timbr)로 크리에이터 글로벌 진출 가교 역할할 것” IT동아갤로그로 이동합니다. 11.22 38 0
4561 [ENSL 2024] 누구나 쉽게 버튜버 만들어주는 동영상 서비스 ‘에이플라’ [7] IT동아갤로그로 이동합니다. 11.22 4545 2
4560 [리뷰] AI PC로 거듭난 비즈니스 노트북, 에이수스 엑스퍼트북 P5(P5405) [2] IT동아갤로그로 이동합니다. 11.22 681 0
4559 [부산창경 BEF 2024] 바다플랫폼 “블록체인 세이피안, 식품 생산·유통 안전 지킨다” IT동아갤로그로 이동합니다. 11.22 61 0
4558 [부산창경 BEF 2024] 엘리코퍼레이션 “인도 여성 인권 신장하는 콘택트렌즈 전문 브랜드” IT동아갤로그로 이동합니다. 11.22 49 0
4557 [창업도약+경북대] 에이스에듀 “버추얼 아이돌로 전 세계에 K-콘텐츠의 매력 알릴 것” IT동아갤로그로 이동합니다. 11.22 45 0
4556 전문가가 제시하는 스타트업 ESG 경영 전략…’2024 서울 스타트업 ESG 포럼’ [1] IT동아갤로그로 이동합니다. 11.21 1686 0
4555 수원대학교 'WoW 스타트업 브랜치 오픈이노베이션' 개최 IT동아갤로그로 이동합니다. 11.21 80 0
4554 [스타트업리뷰] 로닉 “인공지능 맞춤형 음식 도우미, AI 로봇셰프 큐브” IT동아갤로그로 이동합니다. 11.21 4795 0
4553 [IT기획자의 탄생] 3. IT기획자에게 필요한 상상력과 글로벌 전략 IT동아갤로그로 이동합니다. 11.21 90 0
4552 [IT’s 가성비] 삼성 크리스탈 UHD TV, 2024년형/85인치 모델에 눈길? IT동아갤로그로 이동합니다. 11.21 1882 0
4551 [스케일업] 클리카 [3] 피터 노빅과의 대담으로 살펴본 'AI 스타트업'의 방향성 IT동아갤로그로 이동합니다. 11.21 91 0
4550 [생활 속 IT] LG 가전 활용도 넓히는 'LG ThinQ' 연결 및 사용법 IT동아갤로그로 이동합니다. 11.21 82 0
4549 [생활 속 IT] 소프트웨어 활용 습관 바꿔줄 윈도 11 ‘가상 데스크톱’ [1] IT동아갤로그로 이동합니다. 11.20 176 0
4548 [부산창경 BEF 2024] 기술로 문제 풀이와 오답 노트 작성 효율 높인 ‘프라이머스’ IT동아갤로그로 이동합니다. 11.20 100 0
4547 IBM-연세대, 슈퍼컴 능가하는 127 큐비트 양자컴퓨터 국내 첫 도입 [3] IT동아갤로그로 이동합니다. 11.20 4871 4
4546 [주간스타트업동향] 휴머닉스, 위플로 CES 2025 혁신상 수상 外 IT동아갤로그로 이동합니다. 11.20 171 0
4545 [부산창경 BEF 2024] 만만한녀석들 “모듈형 집기로 친환경 MICE 산업 선도한다” IT동아갤로그로 이동합니다. 11.20 94 0
4544 [부산창경 BEF 2024] 나누기월드 “외국인 유학생, 장애인 문제 해결에 기여” [4] IT동아갤로그로 이동합니다. 11.20 334 0
4543 선박 제조업의 디지털 전환 이끄는 ‘버추얼 트윈’ 기술 IT동아갤로그로 이동합니다. 11.19 122 0
4542 에릭슨엘지 “네트워크도 API로 제공…개발자 참여 독려해야” IT동아갤로그로 이동합니다. 11.19 119 0
4541 [IT애정남] 노트북 SSD의 OEM 파티션, 삭제해도 되나요? IT동아갤로그로 이동합니다. 11.19 121 0
4540 [부산창경 BEF 2024] 그린에너지(주) “산업 현장 악취·유해물질 플라즈마로 해결” IT동아갤로그로 이동합니다. 11.19 120 0
4539 [자동차와 法] 행락철 교통사고 책임과 법적 대처 방안 IT동아갤로그로 이동합니다. 11.19 711 0
4538 아이작 컨셉츠 김태영 대표, "반도체·열유체 공학의 산학협력 교두보 만들겠다" IT동아갤로그로 이동합니다. 11.19 117 0
4537 [시승기] 돋보이는 디자인과 안전 사양 ‘KGM 액티언’ [1] IT동아갤로그로 이동합니다. 11.18 427 0
4536 +불필요한 PC 앱, 지우려면 이렇게! [이럴땐 이렇게!] [1] IT동아갤로그로 이동합니다. 11.18 5166 5
4535 [스케일업] 반프 [3] 정예솔 전략총괄 “반프의 가치, 글로벌 시장에서도 매력적” IT동아갤로그로 이동합니다. 11.18 145 0
4534 [주간투자동향] 숨빗AI, 50억 원 규모 시드 투자 유치 外 IT동아갤로그로 이동합니다. 11.18 137 0
4533 [투자를IT다] 2024년 11월 2주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 11.16 234 0
4532 [스케일업] 보라웨어 [2] 전영복ㆍ이효주 “구성원 복지ㆍ기업 성장이 공존하는 곳” IT동아갤로그로 이동합니다. 11.15 227 0
4531 [생성 AI 길라잡이] 8종의 AI 모델 골라 쓰는 ‘SKT 에이닷’ 웹 버전 IT동아갤로그로 이동합니다. 11.15 217 0
4530 디지포레, “제조산업의 디지털 전환, ‘팩토리얼 프로’로 앞당길 것" IT동아갤로그로 이동합니다. 11.15 209 0
4529 [리뷰] 모니터링 헤드폰의 새로운 기준점 제시, 소니 MDR-M1 [5] IT동아갤로그로 이동합니다. 11.15 6288 1
4528 [2024 고려대] 스페이스점프 “자영업·소상공인 기자재의 모든 것, 소상공간” IT동아갤로그로 이동합니다. 11.15 197 0
4527 퀄컴, 온디바이스 AI·차량 전동화에 초점 맞춘 최신 솔루션 선보여 IT동아갤로그로 이동합니다. 11.15 217 0
4526 [창업도약+경북대] 비빔블 “비커스ㆍ버튜디오로 상상 이상의 가상경험 제공할 것” IT동아갤로그로 이동합니다. 11.15 176 0
4525 [AI와 미래] 기존 저작물은 AI 학습에 어디까지 활용할 수 있을까? IT동아갤로그로 이동합니다. 11.15 1397 0
4524 [월간자동차] 24년 10월, 신차 등록 두 달 연속 증가…싼타페 판매 1위 IT동아갤로그로 이동합니다. 11.15 173 0
4523 [리뷰] 10G 업링크 지원 네트워크 스위치, 넷기어 GS108MX IT동아갤로그로 이동합니다. 11.14 196 0
4522 데이터 주권 강조하는 소버린 AI, 진정한 의미는? [1] IT동아갤로그로 이동합니다. 11.14 757 0
4521 [스케일업] 스쿨버스 [3] 통학버스 전문 플랫폼 개발자 인터뷰 IT동아갤로그로 이동합니다. 11.14 199 0
4520 [UDC 2024] 다양한 산업을 변화시키는 블록체인의 힘 IT동아갤로그로 이동합니다. 11.14 191 0
4519 로봇과 문화예술의 만남, 브이디컴퍼니x장 줄리앙의 종이세상 IT동아갤로그로 이동합니다. 11.14 350 0
4518 [IT애정남] 갤럭시워치를 아이폰과 연결해서 쓸 수 있나요? IT동아갤로그로 이동합니다. 11.13 4683 0
4517 [신차공개] BMW ‘뉴 4시리즈 그란 쿠페’·로터스 ‘에메야’ 공식 출시 [3] IT동아갤로그로 이동합니다. 11.13 4812 1
4516 [스타트업-ing] 오아시스 스튜디오 “OVP·오닉스·디보틀로 콘텐츠 에코시스템 구축” IT동아갤로그로 이동합니다. 11.13 203 0
4515 [생활 속 IT] 취업 서류, 정부24에서 내려받는 법 IT동아갤로그로 이동합니다. 11.12 237 0
뉴스 ‘열혈사제2’ 서현우, 살아있는 사투리 연기 빌런 남두헌 역 착붙 디시트렌드 11.22
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2