LSTM, GRU 간단 정리
·
DL/NLP
Vanilla RNN의 한계 : 장기 의존성 문제(The Problem of Long-term Dependency)은닉층의 과거의 정보가 마지막까지 전달하지 못하는 현상을 의미한다."과학 선생님이 오늘 쪽지시험을 보았다. 쪽지시험에서 점수를 잘 받은 학생은 ?? 선생님이 칭찬해 주었다."라는 문장이 있고, ??라는 단어를 예측하고자 한다. 문장 앞에서 과학 선생님이 쪽지시험을 냈다는 이야기가 있으니, ??는 '과학'이라고 알 수 있다. 하지만, 예측하고자 하는 단어와 근거가 되는 단어의 거리가 멀어진다면, RNN은 올바르게 문맥을 연결할 수 없다. 이유는, 멀리 있는 단어일수록 정보가 전달되지 않고 소실될 가능성이 있는 장기 의존성 문제 때문이다. LSTM(Long Short-Term Memory)LST..
RNN
·
DL/NLP
RNN(Recurrent Neural Network, 순환 신경망)RNN의 구조녹색 박스는 hidden state, 파란 박스 x는 인풋, 파란박스 y는 아웃풋은닉층 : $h_t = \tanh(W_x x_t + W_h h_{t-1} + b)$출력층 : $y_t = f(W_yh_t + b)$단, $f$는 비선형 활성화 함수 중 하나.(수식에서와 같이 활성화 함수(activation function)은 하이퍼볼릭탄젠트(tanh)RNN의 특징 : 이전 단계의 정보를 기억하고 다음 단계에 전달할 수 있다 == 순차적(연속적)인 데이터를 처리할 수 있다RNN 장점 :가변적인 길이의 input Sequence를 처리할 수 있다.입력된 데이터의 순서를 기억하여 t시점에서 수행된 계산은 여러단계 이전의 정보를 사용할 ..