'Vanishing Gradient' 태그의 글 목록 :: MINI

Vanishing Gradient

인공 신경망의 최적화 - 기울기 사라짐, 손실함수와 최적화 2021.09.23

인공 신경망의 최적화 - 기울기 사라짐, 손실함수와 최적화

2021. 9. 23. 17:07

XOR 문제 다음으로 딥러닝 발전에 암흑기를 가져온 '기울기 사라짐(Vanishing Gradient)'에 대해 공부해본다.

인공신경망은 합성함수의 형태로 계산이 되어 결괏값이 나오는 형태이기 때문에, 그 미분은 연쇄 법칙을 통해서 계산이 됨
연쇄 법칙은 어떤 미분의 곱들로 계산이 됨
p1은 활성화 함수 a1에 가중치*x 해준 것
p1을 w1으로 미분한 값 = a1을 w1으로 미분한 값

최종적으로 입력값에 가중치들이 곱해지고 활성화 함수를 미분한 형태들을 볼 수 있음
역전파의 형태를 봤더니, 활성화 함수를 미분하는 과정이 들어 있는 것을 알 수 있음

빨간색으로 표시된 sigmoid는 스무스한 그래프를 가지고 있음
sigmoid를 미분하면 파란색 그래프로 표현됨
sigmoid 미분한 값들을 곱하면 엄청 작은 0에 가까운 수가 됨
우리가 구하고자 하는 미분 값이 0에 가까운 수가 될 수 있음

우리가 w1에 대해 업데이트하고 싶은데 미분 값이 0으로 가버리게 되면 w1이 되기 때문에
다음 가중치가 업데이터 되지 않는 현상이 발생함
이 것을 '기울기 사라짐'이라고 함
층을 깊게 하면 예측에 좋다고 생각을 했는데, 막상 업데이트를 하려고 하니까 연쇄 법칙이 이뤄지면서 미분 값이 0으로 가버리는 문제가 생김

ReLU 그래프의 0을 기준으로 왼쪽을 미분하면 0, 오른쪽을 미분하면 1
오른쪽 값의 경우 무조건 1이 나오기 때문에 sigmoid 보다는 좋음
Leaky ReLU 그래프를 사용하여 기울기 사라짐을 더 방지할 수 있음

손실 함수와 최적화에 대해 완벽한 이해가 되지 않더라도, 포인트는 꼭 알고 가자!!

하강법(Descent Method)의 한계

손실 함수 설계 시 W형 그래프인 경우 어디가 최솟값인지 알 수 없는 경우가 생기므로 U형 그래프로 설계하는 것이 좋음
대표적인 손실 함수(Loss function)의 특징 : MAE, MSE, Cross Entropy 함수는 볼록성(Convexity)을 지님
Loss Function은 Convex로 설계해주는 것이 가장 좋음

볼록성에 대해서는 아래에서 더 보자!

볼록성(Convexity)

두 점을 잡아 직선을 그었을 때 원래 있던 함수값보다 위에 있을 경우 Convex라고 이야기함

Loss Function을 Convex 형태로 만들 경우 최솟값을 찾기 쉬우므로 제일 좋음

Non-convex의 경우 시작 위치에 따라 global min으로 갈 수도 있고, local min으로 갈 수도 있기 때문에 최적화하는데 좋지 않음

Loss Function에서 max를 구하는 경우, Concave를 사용하면 좋음(-를 곱하면 min이 되므로 좋음)

두 점을 잡아 직선을 그었을 때 원래 있던 함수값보다 위에 있을 경우 Convex라고 이야기함

내용에 문제가 있으면 댓글로 알려주세요!

출처 : 인프런 - 실전 인공지능으로 이어지는 딥러닝 개념 잡기(딥러닝 호형)

저작자표시 비영리 변경금지

'딥러닝 공부' 카테고리의 다른 글

장단기 메모리와 게이트 순환 유닛(LSTM and GRU) (0)	2021.09.28
순환 신경망(Recurrent Neural Networks) (0)	2021.09.23
인공 신경망의 최적화 - 확률적 경사 하강법과 최적화 기법 (0)	2021.09.23
인공 신경망의 최적화 - 경사 하강법(Gradient Descent) (0)	2021.09.23
인공 신경망의 최적화 - 하강법(Descent Method) (0)	2021.09.23

PREV 1 NEXT

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바