장단기 메모리와 게이트 순환 유닛(LSTM and GRU)

2021. 9. 28. 00:03

순환 신경망의 다양한 형태들을 알아보쟈

Vanilla RNN

이전 hidden state 정보를 받아서 현재 input 값과 계산을 한 뒤에, Tanh라는 activation function을 거쳐서 현재의 hidden statef를 만들어냄
이와 같은 방식을 사용하다 보면 '기울기 사라짐' 문제가 발생함

Vanilla RNN의 문제점

'기울기 사라짐' 문제는 값이 조금만 커지거나 조금만 작아져도 미분 값이 0이 돼버리는 것
'장기 의존성' 문제는 앞쪽의 hidden state 정보들이 뒷 쪽에 있는 hidden state까지 얼마나 전달이 될까? 라는 의문에서 생겨난 문제

LSTM(Long Short-Term Memory models)

GRU(Gated Recurrent Unit)

RNN, LSTM, GRU의 근본적인 단점

seq2seq(sequence-to-sequence)

Attention Mechanism

seq2seq의 어순을 판단하기 어려운 문제점을 해결하기 위해 나옴
어순 차이를 극복함
RNN 연산을 할 때 연산된 각각의 hidden state를 가지고 각각에 가중치를 구해서 hidden state각각에 가중치를 곱해서 더한 값을 context vector로 넘겨줌
RNN의 고질적인 문제는 현재 정보가 과거의 정보에 영향을 미치지 않는다는 것
한 단어 한단어가 번역될 때마다 전체적인 문장에서 가중치를 구함으로서 어순과 상관없이 전체적인 문장을 고려할 수 있음

내용에 문제가 있으면 댓글로 알려주세요!

출처 : 인프런 - 실전 인공지능으로 이어지는 딥러닝 개념 잡기(딥러닝 호형)

인공 신경망의 성능 개선 - 과적합(Overfitting) (0)	2021.09.28
오토인코더(Autoencoder) (1)	2021.09.28
순환 신경망(Recurrent Neural Networks) (0)	2021.09.23
인공 신경망의 최적화 - 기울기 사라짐, 손실함수와 최적화 (0)	2021.09.23
인공 신경망의 최적화 - 확률적 경사 하강법과 최적화 기법 (0)	2021.09.23

MINI