임베딩 VS 인코딩

대분류

인공지능/데이터

소분류

ML/DL 정리 노트

유형

딥 러닝

부유형

NLP Pytorch

주요 레퍼런스

https://explosion.ai/blog/deep-learning-formula-nlp

최종 편집 일시

2024/10/28 10:00

생성 일시

2024/10/28 08:05

13 more properties

임베딩과 인코딩과 인코더

임베딩과 인코딩과 인코더

•

Embedding: 토크나이징된 단어 토큰들을 벡터들로 변환하는 과정

•

Encoding: Embedding된 벡터들을 Sentence Matrix로 변환하는 과정

•

보통 Encoder에서 Embedding과 Encoding을 모두 수행한다.

Encoder ⊃ (Embedding, Encoding)

Encoder 과정

1.

텍스트가 들어오면 토크나이징을 통해 단어 토큰들로 변환

2.

단어 토큰들은 Embedding을 통해 일련의 단어 벡터들로 변환된다.

3.

일련의 단어 벡터들은 흔히 Bi-LSTM과 같은 모델을 이용해 순방향 마지막 값과 역방향 마지막 값을 concat하는 방식으로, 즉 Encoding을 통해 Sentence Matrix로 변환된다.

4.

Sentence Matrix와 컨텍스트 벡터 간의 Attention 연산을 통해 단일 벡터를 얻는다. (두 Sentence Matrix끼리 Attention 연산을 하는 방법도 있다)

5.

이 단일 벡터는 Feed forward 네트워크로 전달되어 Prediction을 수행한다.