마치며
이번 장에서 우리는 seq2seq와 어텐션에 관해 다루었습니다. 이 구조는 시퀀셜 데이터를 입력으로 받아 시퀀셜 데이터를 출력으로 내주는 모델입니다. 기본적으로 2개의 RNN으로 이루어지며, LSTM을 사용하더라도 기억할 수 있는 길이에는 한계가 있으므로 어텐션을 통해 그 한계를 극복한다고 이야기했습니다.
또한 자연어 생성 문제에서 비롯된 자기회귀 속성 때문에 추론 방법에서 벗어난 훈련 방법인 teacher forcing에 대해서도 이야기했습니다. 추후 이어질 장들에서는 이러한 teacher forcing으로 인해 생긴 문제들을 해결하는 방안들을 소개합니다.
그리고 번역과 같은 자연어 생성 문제일 때의 평가 방법에 관해 다루었습니다. 비록 PPL이 확률값을 길이로 정규화하여 문장의 길이에 상관 없이 문장의 유창성을 판단할 수 있었지만, 번역과 같은 자연어 생성 문제에서는 PPL이 정확한 결과의 품질을 반영하기 어렵습니다. 따라서 BLEU라는 평가 방법을 통해 더 정확한 번역 품질을 얻을 수 있습니다.
이처럼 이번 장에서는 매우 많은 이야기를 했습니다. 사실 이번 장의 내용만으로 기존 통계 기반 기계번역(SMT)를 능가하는 번역 시스템을 만들어낼 수 있을 정도입니다. 하지만 여기에서 만족하지 않고, 이어지는 장들에서는 번역(또는 자연어 생성) 문제의 성능을 한층 더 끌어올리는 것에 관해 설명하겠습니다.
Last modified 2yr ago
Copy link