전처리

Noam Chomsky{ width=400px }

새로운 딥러닝 또는 자연어 처리 알고리즘이 나오면 모두가 관심을 갖고 열광하지만, 사실 자연어 처리에서 가장 중요 한 부분은 전처리(preprocessing) 과정입니다. 아쉽게도 자연어 처리에서 주목도가 낮다 보니, 시중의 도서나 논문들 은 전처리 방법을 자세히 다루지 않습니다.

최신 기술은 논문과 소스 코드들이 공개되어 누구나 따라하고 구현할 수 있지만, 자세한 전처리 방법이나 노하우는 그만큼 공유되지 않습니다. 따라서 실제 서비스 품질을 최종적으로 결정하는 것은 오히려 데이터의 양과 품질일 것입니다. 하지만 데이터를 단순히 많이 모으는 일에는 한계가 있으므로, 결국 데이터의 품질 향상을 위한 전처리 과정의 중요성은 아무리 강조해도 지나치지 않습니다. 전처리 방법은 다루고자 하는 문제나 언어에 따라 다르게 적용되므로 경험과 연륜이 매우 중요합니다. 이번 장에서는 자연어 처리를 위한 전처리에 관해 다룹니다.