Integer Encoding

대분류

인공지능/데이터

소분류

ML/DL 정리 노트

유형

딥 러닝

부유형

NLP Pytorch

최종 편집 일시

2024/10/28 08:50

생성 일시

2024/09/26 08:19

14 more properties

사전 용어

정수 인코딩(Integer-Encoding)

사전 용어

정수 인코딩(Integer-Encoding)

•

자연어 처리에서 텍스트를 숫자로 변환하는 과정 중 하나

Bag of Words - BOW

•

문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 방법

Vectorizer(벡터화) 종류

DictVectorizer

•

각 단어의 수를 세어놓은 사전에서 BOW 인코딩 벡터를 만든다.

•

Bag of Words는 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 방법이다.

•

원본 데이터:

◦

첫번째 문서: When you have faults, do not fear to abandon the

허물이 있다면, 버리기를 두려워 말라. (공자)

•

you, fault, fear abandom

◦

두번째 문서: You will face many defeats in life, but never let yourself be defeated.

인생에서 많은 패배에 직면하겠지만 결코 패배하지 말라. (마야 안젤루)

•

you, face defeat, life, let, defeat

◦

각 문서별 단어의 수를 정리하면,

▪

you는 모든 문장에서 사용됨

▪

defeat는 하나의 문장에서 여러번 사용됨

from sklearn.feature_extraction import DictVectorizer

vect = DictVectorizer(sparse=False)
SQL
복사

data = [{'A': 1, 'B': 2}, {'B': 3, 'C': 1}]
X = vect.fit_transform(data) # 인코딩 수치 벡터로 변환(X)
SQL
복사

•

X는 아래와 같이 변환됨

{'A': 1, 'B': 2} -> [1, 2, 0] {'B': 3, 'C': 1} -> [0, 3, 1]

X
# array([[1., 2., 0.],
#        [0., 3., 1.]])
       
vect.feature_names_
# ['A', 'B', 'C']

vect.transform({'A': 1, 'E': 3}) # E는 제외됨
# array([[1., 0., 0.]])

vect.transform({'C': 4, 'D': 3}) # D는 제외됨
# array([[0., 0., 4.]])

vect.transform({'B': 4, 'T': 3})
# array([[0., 4., 0.]])

vect.transform([{'B': 4, 'T': 3}, {'C': 4, 'A': 3}])
# array([[0., 4., 0.],
#        [3., 0., 4.]])
SQL
복사

CountVectorizer

•

문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다.

from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This is the second second documents.',
    'And the third one.',
    'Is this the first document?',
    'The last document?',
]
SQL
복사

vect = CountVectorizer() # 객체화

{'this': 10,
 'is': 4,
 'the': 8,
 'first': 3,
 'document': 1,
 'second': 7,
 'documents': 2,
 'and': 0,
 'third': 9,
 'one': 6,
 'last': 5}

# 학습 -> 어간추출/표제어추출하지 못함!!! 단순 단어 카운트
vect.fit(corpus)

vect.vocabulary_ # 학습 데이터 확인

vect.transform(['This This is the second document.']).toarray()
# array([[0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 2]])
 
vect.transform(['Something completely new.']).toarray()
# array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

corpus
['This is the first document.',
 'This is the second second documents.',
 'And the third one.',
 'Is this the first document?',
 'The last document?']
 
vect.transform(corpus).toarray()
array([[0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 0, 1, 0, 1, 0, 0, 2, 1, 0, 1],
       [1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0],
       [0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1],
       [0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0]])
SQL
복사

stop words

•

stop words는 문서에서 단어장을 생성할 때 무시할 수 있는 단어를 말한다. 보통 관사, 접속사, 조사 등이 여기에 해당한다.

token

•

analyzer, tokenizer 등의 인수로 사용할 토큰 생성기를 선택할 수 있다.

nltk(형태소 분석기)

•

오래된 영어 전용 형태소 분석기

N-gram

•

N-gram은 단어장 생성에 사용할 토큰의 크기를 결정한다. 모노그램(monogram)은 토큰 하나만 단어로 사용하며 바이그램(bigram)은 두 개의 연결된 토큰을 하나의 단어로 사용한다.

빈도수

•

max_df, min_df인수를 사용하여 문서에서 토큰이 나타난 횟수를 기준으로 단어장을 구성할 수도 있다. 

•

토큰의 빈도가 max_df로 지장한 값을 초과 하거나 min_df로 지정한 값보다 작은 경우에는 무시

TfidVectorizer

•

CountVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 인코딩 벡터를 만든다.

•

정리

◦

TF(Team Frequency) : 특정 단어가 하나의 데이터 안에서 등장하는 횟수

◦

DF(Document Frequency) : 문서 빈도 값, 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지표

◦

IDF(Inverse Document Frequency) : DF값에 역수를 취해서 구할 수 있으며, 특정 단어가 다른 데이터에 등장하지 않을수록 값이 커진다.

•

단순 횟수를 이용하는 것보다 각 단어의 특성을 좀 더 반영할 수 있다.