Search

임베딩 VS 인코딩

대분류
인공지능/데이터
소분류
ML/DL 정리 노트
유형
딥 러닝
부유형
NLP Pytorch
주요 레퍼런스
https://explosion.ai/blog/deep-learning-formula-nlp
최종 편집 일시
2024/10/28 10:00
생성 일시
2024/10/28 08:05
13 more properties

임베딩과 인코딩과 인코더

Embedding: 토크나이징된 단어 토큰들을 벡터들로 변환하는 과정
Encoding: Embedding된 벡터들을 Sentence Matrix로 변환하는 과정
보통 Encoder에서 Embedding과 Encoding을 모두 수행한다.
Encoder ⊃ (Embedding, Encoding)

Encoder 과정

1.
텍스트가 들어오면 토크나이징을 통해 단어 토큰들로 변환
2.
단어 토큰들은 Embedding을 통해 일련의 단어 벡터들로 변환된다.
3.
일련의 단어 벡터들은 흔히 Bi-LSTM과 같은 모델을 이용해 순방향 마지막 값과 역방향 마지막 값을 concat하는 방식으로, 즉 Encoding을 통해 Sentence Matrix로 변환된다.
4.
Sentence Matrix와 컨텍스트 벡터 간의 Attention 연산을 통해 단일 벡터를 얻는다. (두 Sentence Matrix끼리 Attention 연산을 하는 방법도 있다)
5.
이 단일 벡터는 Feed forward 네트워크로 전달되어 Prediction을 수행한다.