Search

Image2Text

대분류
인공지능/데이터
소분류
ML/DL 정리 노트
유형
딥 러닝
부유형
Vision-NLP
최종 편집 일시
2024/10/27 15:19
생성 일시
2024/10/17 00:16
14 more properties

Image Captioning

Image Captioning: 이미지를 입력으로 넣었을 떄 어울리는 문장을 만들어내는 것
Classification : Whole Image + Single Label // ex) cat
Detection : Image Regions + Single Label // ex) cat, Skateboard
Captioning : Whole Image + Sequence // ex) A cat riding a skateboard

Main structure of Model

미리 학습된 CNN 모델은 사물의 종류와 질감, 관계 등 다양한 시각적 의미가 담긴 Feature vector를 추출할 수 있다.
이 Feature vector는 디코더의 첫 입력이 된다.
디코더는 이미지의 Feature vector와 현재까지의 Word embedding으로부터 적절한 다음 단어를 예측하는 방식으로 문장을 구성

Encoder

Decoder

Embed Attention Mechanism

Inference

첫 번째 디코드 단계에서는 상위 k개의 후보를 고려한다.
이러한 k개의 첫 번째 단어 각각에 대해 k개의 두 번째 단어를 생성한다.
가산점수를 고려하여 상위 k개 [첫 번째 단어, 두 번째 단어] 조합을 선택
k개의 두 번째 단어 각각에 대해 k개의 세 번째 단어를 선택하고, 상위 k개의 [첫 번째 단어, 두 번째 단어, 세 번째 단어] 조합을 선택
각 디코드 단계에서 반복
k개의 시퀀스가 종료된 후 전체 점수가 가장 높은 시퀀스를 선택한다.