단어 임베딩

Tomas Mikolov{ width=500px }

딥러닝은 여러 계층과 비선형 활성화 함수들을 거치면서 필요한 특징 정보를 추출합니다. 이 과정에서 정보를 압축시켜 정보의 불필요한 부분은 버리고, 필요한 부분만 수집하여 이를 정답 결괏값과 같아지도록 학습합니다.

사람의 언어는 매우 방대하고 불연속적인 데이터로, 매우 비효율적으로 아주 높은 차원의 공간에 희소하게 퍼져 있습니다. 따라서 자연어 처리의 어려움을 해결하기 위한 딥러닝 기반의 압축과 정보 추출 과정이 매우 중요합니다. 이는 결국 기존의 자연어 처리 방식에 비해서 훨씬 뛰어난 성능을 실현하는 결과로 이어졌습니다.

마찬가지로 우리는 신경망을 통해 기존의 특징(feature) 벡터 표현 방식보다 훨씬 더 정확한 특징 벡터 표현 방법을 학습할 수 있습니다. 이번 장에서는 가장 대표적인 word2vec에 대해 소개하고, word2vec의 단점을 보완한 GloVe를 이야기하고자 합니다. 그에 앞서 딥러닝의 동작 원리에 대한 이해를 도울 수 있도록, 딥러닝의 비선형 차원 축소에 관해 설명하는 시간도 갖겠습니다.