텍스트 마이닝과 데이터 마이닝

컴퓨터는 '사과'나 'apple'을 직접 이해하지 못한다. 대신 언어는 특정 개념을 표현하기 위한 약속의 집합이므로, 컴퓨터에게 단어를 알려주기 위해 숫자의 형태로 변환해야 한다. 이 과정을 임베딩이라고 하며, 이는 컴퓨터가 단어를 인식하고 처리할 수 있게 한다.

임베딩은 텍스트 데이터를 벡터로 변환하는 기술이다. 이는 텍스트 마이닝과 자연어 처리에서 기본적인 과정으로, 텍스트에서 유용한 정보를 추출해 분석하는 데 사용된다. 임베딩 과정은 다음과 같다:

임베딩은 단어 임베딩과 문장 임베딩으로 나뉘며, 각각 단어와 문장을 벡터로 변환한다.

원핫 인코딩 (One-hot Encoding)

원핫 인코딩은 단어를 0과 1로 이루어진 벡터로 변환하는 방식이다. 각 단어는 고유한 인덱스를 가지며, 해당 인덱스 위치만 1이고 나머지는 0으로 구성된다. 예를 들어 'dog', 'cat', 'apple'이라는 단어 집합이 있을 때:

하지만 원핫 인코딩은 다음과 같은 한계를 가진다:

분산 표현 (Distributed Representation)

분산 표현은 연속적인 값으로 단어를 벡터화하는 방식으로, 단어의 의미를 여러 특성(feature)에 걸쳐 분산시켜 표현한다. 이는 원핫 인코딩의 한계를 극복하며, 비슷한 의미의 단어들이 비슷한 공간에 존재하게 한다.

원핫 인코딩은 단어를 0과 1로 정의하는 방법이다. 예를 들어 'dog', 'cat', 'apple' 단어 집합이 있을 때:

분포 가설(Distribution Hypothesis)을 기반으로 단어의 의미를 문맥에 따라 정의하는 방식이다. Word2Vec과 GloVe와 같은 알고리즘이 사용되며, 주변 단어들을 이용해 각 단어를 벡터로 변환한다.

Word2Vec: CBOW와 Skip-gram 방식을 사용해 이웃한 단어들로 가운데 단어를 예측하거나, 가운데 단어로 이웃한 단어들을 예측
GloVe: 단어 간 공동 출현 통계를 이용해 단어의 의미를 벡터로 표현

단어 임베딩은 단어의 의미와 문맥적 유사성을 포착하는 데 사용되며, 문장 임베딩은 문장의 전체적인 의미를 포착하는 데 사용된다. 문장 임베딩은 더 많은 자원과 계산이 필요하지만, 글의 전반적인 이해가 용이하다.

문장 임베딩은 각 단어 임베딩의 평균을 활용하거나, TF-IDF를 적용해 문장 임베딩을 생성할 수 있다. 또한, 딥러닝 모델을 활용해 문장의 의미를 담는 벡터를 생성할 수 있다.

티스토리툴바