앞에서 하강법에 대해 배웠으니, 경사 하강법에 대해 배워보자.

 

 

  • 위 이미지를 보면 이전 변수에 새로 계산한 변수로 update 함
  • 첫 번째 이미지에서는 µ값을 0.4로 해주었고, 최소 값으로 수렴하는 것을 볼 수 있음
  • 두 번째 이미지에서는 µ값을 0.6으로 해주었고, 지그재그로 최솟값을 찾아가는 것을 볼 수 있음
  • 세 번째 이미지에서는 µ값을 1.2로 해주었고, 지그재그로 큰 값으로 가는 것을 볼 수 있음
  • gradient descent를 사용했음에도 불구하고 최소값을 찾지 못하는 현상이 발생하게 됨
  • 따라서, µ 를 적절히  조절을 잘해줘야 함
  • µ 이 너무 크면 수렴하지 않을 수 있음
  • µ이 너무 작으면 수렴 속도가 너무 오래 걸릴 수 있음

 

 

내용에 문제가 있으면 댓글로 알려주세요!

 

출처 : 인프런 - 실전 인공지능으로 이어지는 딥러닝 개념 잡기(딥러닝 호형)

+ Recent posts