13장에서는 기존의 강화학습을 넘어서 듀얼리티라는 속성을 활용하여 기계번역의 성능을 극대화하는 방법을 살펴보았습니다. 이전 장에서 언급했듯이, 폴리시 그래디언트 방식은 미분 불가능한 보상 함수도 사용할 수 있는 대신, 샘플링 기반으로 동작하므로 훨씬 더 비효율적인 학습을 진행해야 했습니다. 하지만 듀얼리티를 활용한 방식에서는 기존의 MLE 및 teacher-forcing 방식 아래에서, teacher-forcing 방식의 단점을 보완하는 regularization term을 추가함으로써 모델의 성능을 극대화했습니다.