Search

Attention Mechanism

대분류
인공지능/데이터
소분류
ML/DL 정리 노트
유형
딥 러닝
부유형
NLP Pytorch
최종 편집 일시
2024/10/27 15:22
생성 일시
2024/10/10 00:33
14 more properties

Attention

Seq2Seq의 한계

Seq2Seq 모델은 번역(translation), 챗봇 등의 task에서 높은 성능을 보였다. 하지만 Seq2Seq 모델은 커다란 한계가 있었다.
Seq2Seq 모델은 RNN이나 LSTM 같은 순환 신경망을 사용하여 입력 시퀀스를 처리하고, 그 시퀀스를 바탕으로 출력 시퀀스를 생성한다
그러나 입력 시퀀스가 길어질수록 문제가 생긴다.
입력 시퀸스의 모든 정보를 하나의 고정된 크기의 벡터(컨텍스트 벡터)에 다 압축 요약하려 하다 보니 정보의 손실이 생길 수밖에 없다. 특히 시퀸스의 길이가 길다면 정보의 손실이 더 커진다.
RNN 구조로 만들어진 모델이다 보니, 필연적으로 기울기 소실/폭주(Gradient Vaninshing/Exploding)현상이 발생한다.

추론 구조 비교

Seq2Seq

Seq2Seq with Attention

Attention Process 구조