유사성과 모호성

Philip Resnik{ width=500px }

단어의 의미에 대한 내용은 자연어 처리의 가장 기초이자 가장 어려운 문제입니다. 자연어 처리의 근간을 이루는 단어는 겉으로 보이는 형태와 달리 여러 가지 뜻을 내포하고 있어 문장의 내용을 다양하게 바꿉니다. 언어란 마치 생명체와 같아서 그 효율성을 극대화하는 방향으로 진화합니다. 효율성을 극대화하는 과정에서 당연한(정보량이 낮은) 정보들은 생 략되기 마련입니다. 사람은 효율성을 극대화하기 위해 주변 상황 정보를 종합적으로 활용하여 생략된 정보들을 찾아내고 그 의미를 쉽게 파악하지만, 컴퓨터는 사람에 비해 그 능력이 매우 떨어집니다. 따라서 단어의 숨겨진 의미를 정의하고 알아내기란 매우 중요하면서도 어려운 문제입니다. 5장에서는 단어의 의미를 살펴보고, 단어가 가지는 중의성을 해소하는 방법도 알아봅니다. 또한, 실제 예제 코드들을 통해 이해를 돕고자 합니다.