이번 장에서는 주어진 문장을 확률적으로 모델링하는 방법을 이야기했습니다. 자연어 처리 분야에서 문장 예측 능력의 필요성은 딥러닝 이전부터 꾸준히 있었기에 n-gram 등의 방법을 통해 많은 곳에 활용되고 있었습니다. 하지만 n-gram과 같은 방식들은 여전히 단어를 불연속적인 존재로 취급하다 보니 희소성 문제를 해결하지 못해 일반화 능력에서 많은 어려움을 겪었습니다. 이에 마르코프 가정과 스무딩, 디스카운팅을 통해 n-gram의 단점을 보완하고자 했지만, n-gram은 근본적으로 출현 빈도에 기반하므로 완벽한 해결책이 될 수는 없었습니다.