Attention
Seq2Seq의 한계
•
Seq2Seq 모델은 번역(translation), 챗봇 등의 task에서 높은 성능을 보였다. 하지만 Seq2Seq 모델은 커다란 한계가 있었다.
•
Seq2Seq 모델은 RNN이나 LSTM 같은 순환 신경망을 사용하여 입력 시퀀스를 처리하고, 그 시퀀스를 바탕으로 출력 시퀀스를 생성한다
◦
그러나 입력 시퀀스가 길어질수록 문제가 생긴다.
•
입력 시퀸스의 모든 정보를 하나의 고정된 크기의 벡터(컨텍스트 벡터)에 다 압축 요약하려 하다 보니 정보의 손실이 생길 수밖에 없다. 특히 시퀸스의 길이가 길다면 정보의 손실이 더 커진다.
•
RNN 구조로 만들어진 모델이다 보니, 필연적으로 기울기 소실/폭주(Gradient Vaninshing/Exploding)현상이 발생한다.