디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

올해 노벨상을 받은 역전파 알고리즘에 대해서 생각해본 것

ㅆㅇㅆ(124.216) 2024.10.23 02:12:05
조회 64 추천 6 댓글 4
														

역전파 알고리즘 Backpropagation은


기본적으로 매개변수(가중치,편향)의 오차함수(error function)의 도함수를 계산하기 위한것.


즉 쉽게 요약하자면 신경망에서 학습과정에서 손실을 최소화하기 위해서 쓰임.


여기서 Neural Netwrok의 어려운 점은 필요한 모든 양에 직접 액세스 할 수 없음.


22adc82eef9c28a8699fe8b115ef046ff0165a6cb8

입력 레이어(Input Layer)에서 출력 레이어(OutPut Layer)에서 또 출력 레이어에서 입력 레이어로 직접 액세스할 수 없음.


그때문에 숨겨진 레이어(Hiddle Layer)에서 전환하여서 그 값을 계산하여야하는데, 이러한 레이어간 전환은 수학적인 미분 연쇄 법칙에 의존함.


이를 역전파 알고리즘이라고함


다르게 말해서, 역전파는 숨겨진 레이어를 통해 error를 전파하면서 각 레이어의 가중치를 조정하는 것이라고 이해할 수 있음.


혹자는 역전파 알고리즘 자체 multilayer nerual network의 학습 알고리즘 전반을 말하기도 하지만, 이는 사실이 아니라,

역전파는 도함수, 즉 기울기를 구하기 구하는데 쓰이는 것임


이는 경사하강법(Gradient Descent)과 같은 최적화 알고리즘과 결합되서 신경망 가중치를 업데이트하는데 사용됨

(경사 하강법은 1차 도함수를 이용하여 손실 함수(Loss function)를 최소화하는 함수)


아래는 회귀(regression)문제에 역전파와 최적화 알고리즘을 적용해서 학습 시키는 법을 다룸.


(여기서 회귀는 입력 변수와 연속적 출력 변수간의 관계를 모델링하는 문제임)




38a5c968f5dc3f8650bbd58b3685706faf


여기서 En은 평균 제곱오차임.

모델의 예측값 y_n과

실제값 t_n간의 차이를 측정함.



여기서 도함수를 구하면



22a8c824abc236a14e81d2b628f177684c10

(오차함수E_n에 대한 가중 wij의 기울기)

편미분 방정식의 연쇄법칙에 의거해서



22a8c824b79c28a8699fe8b115ef046faba85b

b_n은 출력 뉴런의 활성화 함수(Activation)의 출력값

p_j는 히든 레이어의 뉴런의 출력값

이다.


활성화함수?->입력 신호의 총합을 출력신호로 변환하는 함수


22a8c824b69c28a8699fe8b115ef046ef4c485f9

(선형 결합의 도입-> 모델 출력 b_n을 입력 z_j와 p_j의 선형 결합으로 정의함)


여기서 σ(시그마)는 출력 뉴런의 오차, z_j는 입력 뉴런의 값이다.


여기까지가 주어진 데이터 포인트에 대한 오차함수의 기울기를 계산하는 방법이다.


1.오차함수를 정의

2.개별 오차의 정의-> 예측값과 실제값 차이의 제곱

3. 오차함수의 기울기 계산

4. 선형 결합의 도입

5. 각 파라미터에 대한 기울기(y_n-t_n)z_j가 된 것이다.


여기까지가 '단일 레이어 또는 simple model에서의 기울기다. 여기서 역전파 알고리즘은 이를 '다층(Multilayer)' 신경망으로 확장한다.

각층의 파라미터에 대한 기울기를 효율적으로 계산하는 방법이 역전파 알고리즘인 것이다.


다층 신경망의 구조는


여러개의 hidden layer가 존재하는데 입력 레이어->Hidden Layer1->Hidden Layer2->....>Out Layer 순서다



22a8c824b19c28a8699fe8b115ef046a71e05e

뉴런 j의 입력 a_j에 대한 편미분


히든 레이어 j의 뉴런 입력 aij를 정의함


x_i는 입력 레이어의 뉴런 i 출력값임.

여기서

b는 출력 레이어 뉴런의 입력값임.



22a8c824b39c28a8699fe8b115ef0468bcc82e03



σ시그마는 결국

출력층에서 모델의 최종 출력과 실제 값과의 차이를 계산함.


그리고 이것을

hiddlayer에서 계산된 오류를 바탕으로 각 hiddlayer안에 있는 노드가 얼마나 오류에 기여했는지 체크하는것이




22adc833fc9c28a8699fe8b115ef046c96dba9

라고 할 수 있음

따라서

σ_j는 Hidden Layer의 각 노드가 OutLayer의 오류에 얼마나 기여했는지를 나타냄.


따라서


22adc833fc8076b660b8f68b12d21a1d4b0ebec1

이 식의 의미도 자명해짐.


출력층의 가중치에 대한 오차함수의 편미분->즉 가중치 p_ij가 변할때 오차E_n이 어떻게 변하는지를 나타내는 기울기


여기에서 이제 경사 하강법을 사용해서, 가중치를 업데이트하면



22adc833fc8176b660b8f68b12d21a1d9ea0c644

이 된다.

η: 학습률(learning rate)은 학습률


학습률이 너무 작을 경우-> 학습이 매우 느리게 진행됨

학습률이 너무 클 경우->발산할 위험이 있음.


전체 과정을 요약하면 다음과 같다.


1. 순전파(Forward Pass)->입력 데이터를 통해서 예측값을 계산

2. 오차 계산

3. 역전파(Backward Pass)->Out Layer에서 Hidden Layer로 오차 전파, 매개변수 기울기 계산

4. 경사 하강법을 사용하여 가중치 업데이트

5. 반복







추천 비추천

6

고정닉 2

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 주위의 유혹에 쉽게 마음이 흔들릴 것 같은 스타는? 운영자 24/10/21 - -
공지 프로그래밍 갤러리 이용 안내 [72] 운영자 20.09.28 38706 62
2765165 11월 다 되어가는데..애플..ㅇㅅㅇ [2] ㅇㅅㅇ(106.102) 05:19 11 0
2765164 찐따 컴공생인데 팀프로젝트 경험 없어도 ㄱㅊ냐 [2] ㅇㅇ(115.20) 04:47 20 0
2765163 취미생활로 가끔 블렌더 만지는데 [1] ㅆㅇㅆ(124.216) 04:39 25 0
2765162 아오씨발 국비충인데 막막하네 [4] ㅇㅇ(117.111) 04:27 46 0
2765161 니들 되서라는 말은 세상에 없대 [4] 헬마스터갤로그로 이동합니다. 04:23 36 0
2765159 DARPA의 인공지능 기술 LIFE LOG / FACEBOOK ㅇㅇ(121.88) 03:53 20 0
2765158 최근에 내가 봤을때 작은 AI라도 개발 할 줄 알아야겠더라 ㅆㅇㅆ(124.216) 02:54 38 0
2765157 일본에서 10년 일하며 느낀 취업, 직장 관련 조언 [2] 프로외노자갤로그로 이동합니다. 02:51 53 0
2765156 ebook을 pdf로 좀 간단하게 변환시키는 방법 없나 [4] 프갤러(220.71) 02:49 35 0
2765155 다중이짓을 안했는데 다중이짓이라고 하니까 얼탱이가 없노 [1] ㅆㅇㅆ(124.216) 02:28 45 0
2765154 이제 잔다 [1] 공기역학갤로그로 이동합니다. 02:15 27 1
올해 노벨상을 받은 역전파 알고리즘에 대해서 생각해본 것 [4] ㅆㅇㅆ(124.216) 02:12 64 6
2765150 한강의 채식주의자-폭력과 나무 불꽃[흐린 창가에서-이병창의 문화비평] 발명도둑잡기갤로그로 이동합니다. 02:08 16 0
2765147 오늘의 소설, 영화 실마리: 음양이론 수면의학 의사 이야기 [1] 발명도둑잡기갤로그로 이동합니다. 01:50 16 0
2765145 결국 학부 수준은 아무것도 못함 [2] 공기역학갤로그로 이동합니다. 01:49 79 0
2765144 3년 안에 부모님 연봉을 이기고 싶습니다 공기역학갤로그로 이동합니다. 01:46 40 0
2765143 스프링 시대가 끝나는날이 올까 [1] ㅇㅇ(222.234) 01:45 26 0
2765142 이젠 진짜 앞으로는 뭔가 만드는데 집중해야해 [1] ㅇㅇ(49.169) 01:35 38 0
2765140 멍유는 보아라 cvs.갤로그로 이동합니다. 01:33 19 0
2765139 진짜 코딩 좆같다 프갤러(106.241) 01:30 34 0
2765137 아스카 문화를 연 쇼토쿠 태자는 백제 아좌 태자인가? 발명도둑잡기갤로그로 이동합니다. 01:28 11 0
2765134 네이버 oauth 검수 받은 사람 있음? 프갤러(58.237) 01:21 17 0
2765132 부업으로 개발할사람 구함..(백엔드,api) 프갤러(58.236) 01:18 37 0
2765129 방금 출시된 AI 에이전트 테스트 후기 [1] ㅇㅇ갤로그로 이동합니다. 01:13 48 0
2765127 내가 알아낸 돈 1조 버는법 알려준다 [2] 공기역학갤로그로 이동합니다. 01:07 51 0
2765126 '북한군 참전 확인' 발표한 윤 정부… 김 여사 의식했나? 발명도둑잡기갤로그로 이동합니다. 01:02 13 0
2765125 독일 주둔 미군 살인 혐의 무죄 판결…반발 이어져 발명도둑잡기갤로그로 이동합니다. 00:54 10 0
2765124 음기 충전 발명도둑잡기갤로그로 이동합니다. 00:43 22 0
2765123 존나 쓸모없는 질문인데 [2] ㅇㅇ(122.32) 00:38 39 0
2765122 오픈런 백화점 줄서기 아르바이트 부업으로 할만하냐? 슈즈같은거 하는건가? 프갤러(124.97) 00:37 11 0
2765121 [블루아카이브] 야한건 안돼!! 사형이다!! 프로외노자갤로그로 이동합니다. 00:32 35 0
2765120 [언론탄압 속보] '자주시보' 전현직 기자 4명 압수수색 [1] 발명도둑잡기갤로그로 이동합니다. 00:13 18 0
2765119 동생이 내 컴터 노리고 있던데 미안하다 ㅇㅅㅇ 돈없어 ㅇㅇ(123.213) 00:13 15 0
2765118 오픈런 백화점 줄서기 아르바이트 부업으로 할만하냐? 슈즈같은거 하는건가? 프갤러(124.97) 00:03 10 0
2765117 팀 회식했는데 [25] 아스카영원히사랑해갤로그로 이동합니다. 00:02 115 0
2765116 개선을 하라는데 시발 [2] 포항의봄갤로그로 이동합니다. 10.22 46 0
2765115 포트폴리오에 성능 개선 수치적으로 나타내라는 게 뭔 좆같은 소리냐 [2] 노예갤로그로 이동합니다. 10.22 52 0
2765114 기상시간 7시40분이면 많이 늦는편인가... 힘들어도 좀 댕겨볼까 [3] ㅇㅇ(123.213) 10.22 20 0
2765113 심은진-My Love [1] 발명도둑잡기갤로그로 이동합니다. 10.22 13 0
2765112 도파민 디톡스 해야겠어요.. ㄹㅇ 심각함 ㅇㅇ(123.213) 10.22 26 0
2765111 제시가 이번에 계약해지한 DOD사는 왜 미국방부 DoD [1] 발명도둑잡기갤로그로 이동합니다. 10.22 9 0
2765110 소프트웨어학과도 컴공계열임? [1] ㅇㅇ(223.39) 10.22 24 0
2765109 '팬 폭행 방관' 제시, 삼합회→LA 갱단 연루됐나…꼬꼬무 의혹 [1] 발명도둑잡기갤로그로 이동합니다. 10.22 16 0
2765108 내가 나를 가능하게 하리라 프갤러(61.79) 10.22 17 0
2765107 연봉협상 난항중 질문 ㅇㅇ(182.229) 10.22 32 0
2765105 ㅆㅇㅆ글보면 아는게 많은거 같음 [2] ㅇㅇ(118.235) 10.22 64 0
2765104 환상적 닉네임 도리스아(112.170) 10.22 15 0
2765103 나는 교양있는 통일교인 ㅇㅇ(118.235) 10.22 21 0
2765102 취준생들 다들 취업잘되냐 [7] 프갤러(112.161) 10.22 86 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2