# 언어 모델링

![Daniel Jurafsky](/files/-Lg-ehn7-lmeTcHeFGJi){ width=500px }

문장은 단어들로 이루어진 시퀀셜 데이터입니다. 이미지나 음성신호 데이터와 달리, 단어들은 불연속적인 데이터로써 각각 확률로 정의될 수 있고 앞뒤 단어의 출현에 따라 각 단어의 출현 여부에 영향을 받습니다. 이것은 이미지나 음성신호 데이터와 다른 차별점으로, 우리에게 다른 접근 방법을 제공합니다. 불연속적인 확률 변수로 정의될 수 있어 샘플에 대한 확률값 자체를 얻을 수 있기 때문입니다. 이를 통해 우리는 언어를 모델링하여 주어진 문장의 일부분에서 다음단어를 예측하거나, 문장 자체의 출현 여부를 예측할 수 있습니다.

언어 모델이 이를 실현하려면 수많은 문장이 필요합니다. 학습된 언어 모델은 문장을 만들어내거나 주어진 문장의 유창성 등을 평가하는 등 자연어 처리와 관련한 많은 작업을 수행할 수 있습니다. 즉, 이후 장에서 소개할 자연어 생성 기술과 관련해 언어 모델은 매우 중요한 의미를 지닙니다.

이번 장에서는 언어 모델의 개념을 살펴보고, 언어 모델을 통해 인간의 언어를 모델링하는 방법을 다룹니다. 나아가 기존의 언어 모델링 방법을 소개하고, 그 한계점과 딥러닝을 통해 한계를 뛰어넘는 것에 관해 이야기할 것입니다. 이를 통해 앞으로 이 책에서 많은 장을 할애하여 소개할 자연어 생성에 필요한 밑바탕을 다지고자 합니다.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://kh-kim.gitbook.io/natural-language-processing-with-pytorch/00-cover-8.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
