[컴알못,컴잘알 논란 종식]알파고 101 (알파고 개론) 시리즈1

comalmot(121.163) 2016.02.03 00:26:19

조회 892 추천 12 댓글 3

먼저 딥러닝의 개념에 대해 짚고 넘어가자.

기계가 학습한다는게 사실 잘 와 닿지가 않을텐데 사실 딥러닝이 왜 그렇게 잘 동작하는지는 현재 아무도 모른다. 마치 인간이 인간의 뇌가 어떻게 동작하는지 모르는 것과 마찬가지라고 보면 된다. 딥러닝에서는 뉴럴 네트워크 (알파고 논문보면 policy network, value network 라고 나오는) 라고 불리는 인공신경망이 존재한다. 이 인공신경망은 마치 사람의 뇌처럼 뉴런과 시냅스를 모델링하여 각각 노드와 노드간의 링크로 구성되고 각각의 노드가 하는 일은 input에 대해 단순한 신호를 생성하는 것 뿐이다.

그럼 학습한다는 것은 무엇인가?

이 뉴럴 네트워크에 어떤 input을 주면 각각의 노드를 거쳐 output 이 나올 것이다. 이 때 이 결과가 원하는 결과에 수렴(convergence) 하도록 각각의 뉴런(노드)의 가중치를 조절하는 것이 딥러닝 개발자들의 역할이다. 이런식으로 학습시키는 알고리즘을 Backpropagation 이라고 한다.

예를 들어 구글에서는 딥러닝 알고리즘으로 고양이와 강아지를 컴퓨터가 구분하게 했다. 이 때 고양이와 강아지라고 알려주고 학습을 시킨 것이 아니고 개와 고양이가 있던 없던 랜덤하게 선택된 엄청난 양의 이미지를 input으로 준 결과 거기서 "고양이"스러움과 "개"스러움을 컴퓨터가 구분해 낼 수 있었다는 것이다.

마찬가지로 바둑에서도 각종 행마법과 정석과 같은 패턴이 존재한다. 대마잡이도 일정한 패턴(사람은 인식하지 못하는)이 존재 한다고 유추해 볼 수 있다. 왜냐면 2집을 못 나게 하기 위한 목적을 가지고 돌을 두기 때문이다. 사람이 의식하는 일종의 "목적"이 은연중에 패턴으로 표현된다고 생각해보면 바둑 프로기사들은 자신도 모르게 어떤 패턴으로써 돌을 두고 있는 것이다. 우리는 이 패턴을 기풍이라고 표현하기도 하고 격언, 정석 등 다양한 종류의 언어로 표현한다. 그러나 이것들은 모두 컴퓨터에게는 "패턴" 이라는 하나의 공통된 개념으로 다룰 수 있다. 물론 패턴만으로 돌을 두는 것은 아니다. 때문에 Deep learning 만으로는 한계가 있다. (몬테카를로 트리 탐색 알고리즘이 필요한 이유이다)

좀 더 쉽게 설명하자면 공학도라면 흔히 blackbox 라는 개념을 들어 봤을 것이다. input 이 blackbox를 거쳐 output이 나오는데 이게 원하는 결과라는 것이다. 또한 blackbox자체가 점점 원하는 output으로 수렴하도록 하는 것이 현재의 머신러닝이다. 가히 기계가 학습을 한다고 말할 수 있을 법 하다. 앞으로 머신러닝 개념을 설명할 때는 이 intput, output 관점에서의 접근으로 설명하도록 하겠다. 왜냐면 이게 가장 이해하기 쉬우면서도 실제 머신러닝을 잘 추상화 한 것이기 때문이다.

이게 알파고에서 어떻게 쓰였는지를 설명하자면 알파고는 기존의 몬테카를로 방식을 딥러닝을 통해 한층 강화한것이라고 보면 된다.

몬테 카를로 방식은 기본적으로 다음 둘 수를 정할 때 그 수를 둔 이후로 끝까지 게임을 진행했을때 이길 확률이 가장 높은 수를 선택한다. 그런데 바둑은

모든 경우의 수를 탐색하는 것이 불가능하기 때문에 탐색할 때 아예말이 안되는 수 (끝까지 탐색할 가치가 없는 수들)를 얼마나 잘 배제하냐가 관건이 된다.

너무 당연한 소리만 해서 미안하다. 이제부터 딥러닝의 개념이 사용된다. 이 경우의 수를 줄여가는 방법에는 2가지가 있다. 하나는 탐색의 너비를 줄이는 것이고 다른 하나는 탐색의 깊이를 줄이는 것이다. 탐색의 너비를 줄인다는 것은 현재 바둑판의 형세상 도저히 두면 말이 안되는 곳들을 배제하는 것이다. 즉, 놓을 만한 자리들의 경우의 수를 줄일 수 있다. 알파고에서는 딥러닝을 사용해서 기존 프로기사들의 3천만회의 착수를 policy network 라는 뉴럴 네트워크에 학습시킨다. 이렇게 이미 존재하는 데이터를 학습시키는 것을 머신러닝 에서는 supervised learning(지도학습) 이라고 한다. 즉, input output의 블랙박스 개념으로 policy network 를 설명하면 현재 판의 상태를 (s) 라고 했을 때 policy network의 input 은 s가 되고 output은 확률분포 p(a|s) 가 된다. 즉, 가능한 착점들에 대한 확률분포가 각 판의 상태(형세)에 따라 결정될 수 있다는 뜻이다.

이 과정이 끝난 알파고는 프로기사가 두는 수를 57%정도 예측한다고 한다. (논문 저자들이 실험해본 결과)

57%로는 아직 부족하다. 다음 학습은 방금 형성된 policy network를 가지고 이전의 policy network(학습이 덜 된)와 게임을 붙여서 현재 policy network를 향상시킨다. 이것이 이해하기 힘든 사람들을 위해 더 쉽게 설명하자면 3000만개의 프로기사들의 착수를 보고 대충 바둑두는 법을 배운 어떤 사람이 있다고 하자. 그런데 이 사람은 자신보다 적은 게임을 보고 바둑을 배운 사람한테 무조건 이긴다고 장담할 수 없다. 따라서 1회의 착수만을 보고 배운 사람부터 n-1회의 착수를 보고 배운 사람까지 다양한 사람들과 계속 게임을 하면서 자신의 약점을 보완해 나간다. 이 과정을 Reinforcement learning 이라고 한다.(강화학습)

알파고는 policy network가 약간만 향상되어도 컴퓨터의 실력은 일취월장한다. 왜냐면 바둑에서 한 수를 잘 둔것이 적게는 수집에서 많게는 수십집의 영향력을 갖기 때문이다. RL이 끝난 시점에서 SL만 했던 알파고와 1:1을 붙인 결과 80%이상의 승률이 나왔다고 논문에 써있다.여기까지가 policy network에 대한 대략적인 개념이다.

고정닉 0

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	주위의 유혹에 쉽게 마음이 흔들릴 것 같은 스타는?	운영자	24/10/21	-	-
53331	바둑 역대 최강자들 공통점 [2]	ㅇㅇ(121.168)	16.02.03	199	0
53328	백이 우세하네 [1]	ㅇㅇ(119.194)	16.02.03	92	0
53325	저 병신 바알못 왤케 나대냐	이세돌(211.36)	16.02.03	58	0
53322	바갤 최소 타이젬 9급이상만 글써라 [1]	이세돌(211.36)	16.02.03	99	1
53319	대마잡는다며 18급 병신아 대마안잡고 삼삼파냐	이세돌(211.36)	16.02.03	39	0
53314	지금 강동윤이 다잡앗구만 바알못들 지리네	이세돌(211.36)	16.02.03	58	0
53312	[정보] 바둑tv 유튜브 채널이 새롭게 만들어졌습니다.	알파고	16.02.03	1123	7
53311	박영훈 왤케못하냐 끝난거 아니냐 [2]	이세돌(211.36)	16.02.03	116	0
53310	이러다 프로입단 테스트가 알파고를 이겨야하는게 될지도 ㅋㅋㅋ [1]	ㅇㅇ(183.96)	16.02.03	173	0
53308	우린 모두 꼰대다!	ㅇㅇ(159.203)	16.02.03	55	0
53306	강동윤 요즘 패배가 없단다...	ㅇㅇ(119.82)	16.02.03	68	0
53305	글쓴이 ㅇㅇ [1]	JK(69.123)	16.02.03	97	0
53304	킹세돌이 알파고 좆바르고 바둑이 재조명 받겠네	dd(120.19)	16.02.03	81	1
53303	박영훈은 세계 대회 몇개 먹었냐? [2]	ㅇㅇ(119.82)	16.02.03	90	0
53301	화제성 면에서 알파고 >>>>>>>>>>>>>>>> 세계대회 결승 [3]	ㅇㅇ(45.55)	16.02.03	303	6
53300	씨발 세계대회 결승하는데 아직까지 알파고 얘기야... [1]	ㅇㅇ(119.82)	16.02.03	115	0
53298	바둑티비 인터넷에서 어디서 보냐? [2]	ㅇㅇ(119.194)	16.02.03	70	0
53297	이렇게 두면 알파고가 대처할 수 있냐? [33]	---(220.72)	16.02.03	493	0
53296	남조선과 미국의 프로그래밍 기술 격차는 한 10년 정도다	ㅇㅇ(175.223)	16.02.03	52	1
53294	오늘도 강동윤이 좋아보이네 우승확정이네 [2]	이세돌(211.36)	16.02.03	84	0
53293	홍민표 하이톤이네....	ㅇㅇ(119.82)	16.02.03	60	1
53290	제주도 여행도 다니고, 아마최대 상금의 바둑 축제도 즐기자! [4]	향원생활협동조합	16.02.03	181	0
53289	제 16-2차 제주투어 바둑대축제 예선전 [2]	향원생활협동조합	16.02.03	385	0
53288	지금 바갤 기세	예언자(121.163)	16.02.03	94	0
53287	여기가 그 유명한 컴갤인가요? [2]	---(220.72)	16.02.03	118	1
53286	알파고 관련해서 프로기사들 얘기는 너무 새겨듣지 마라 [9]	ㅇㅇ(119.194)	16.02.03	585	5
53285	ㅎ알파고에 대해 오해하고 있는 사실들.. [1]	혼돈의카오스(121.163)	16.02.03	143	0
53283	모라벡의 역설 [1]	ㅇㅇ(110.10)	16.02.03	1578	6
53282	잘나가는 프로그래머와 프로기사가 말하는 딥러닝과 알파고. [12]	ㅇㅇ(110.10)	16.02.03	826	9
53280	알파고 개거품론 정리 [1]	이세돌(211.36)	16.02.03	390	6
53279	알파고 같은 프로급 바둑 프로그램이 많이 상용화가 된다면 [2]	젠(58.123)	16.02.03	279	0
53278	박정희 대통령	ㅇ(1.242)	16.02.03	36	0
53276	근데 알파고가 정말 놀라운건,, [1]	껨블러(211.222)	16.02.03	221	0
53275	현대바둑은 일본에서 시작됐으니 바둑을 영어로 Go라고 불러주자 [1]	고덕후(223.33)	16.02.03	153	0
53267	180.69 정신적으로 문제있어 보이지 않냐? [3]	ㅇㅇ(175.223)	16.02.03	197	5
53263	아침 1빠	ㅇㅇ(61.76)	16.02.03	43	0
53258	만약 일본식 룰로 초장기전 싸움으로 간다면 이야마 유타가 세계대회 우승함 [3]	ㅁㄴㅇㄹ(211.41)	16.02.03	234	0
53257	하여간 일본놈들은 불리할땐 술금슬굼 피하다가 뒤에서 딴소리하는 족속들임 [4]	ㅇㅇ(126.94)	16.02.03	149	1
53256	이창호를 일본측은 이야기 할 가치도 없지 [1]	ㅇㅇ(211.59)	16.02.03	232	0
53255	[컴알못,컴잘알 논란 종식]알파고 101 (알파고 개론) 시리즈3 [75]	comalmot(121.163)	16.02.03	1382	24
53254	[컴알못,컴잘알 논란 종식]알파고 101 (알파고 개론) 시리즈2 [3]	comalmot(121.163)	16.02.03	660	13
53253	영어권 바둑커뮤니티를 잠시 눈팅하고 놀란 점. [5]	ㅇㅇ(211.202)	16.02.03	326	0
	[컴알못,컴잘알 논란 종식]알파고 101 (알파고 개론) 시리즈1 [3]	comalmot(121.163)	16.02.03	892	12