마치며

13장에서는 기존의 강화학습을 넘어서 듀얼리티라는 속성을 활용하여 기계번역의 성능을 극대화하는 방법을 살펴보았습니다. 이전 장에서 언급했듯이, 폴리시 그래디언트 방식은 미분 불가능한 보상 함수도 사용할 수 있는 대신, 샘플링 기반으로 동작하므로 훨씬 더 비효율적인 학습을 진행해야 했습니다. 하지만 듀얼리티를 활용한 방식에서는 기존의 MLE 및 teacher-forcing 방식 아래에서, teacher-forcing 방식의 단점을 보완하는 regularization term을 추가함으로써 모델의 성능을 극대화했습니다.

또한 기존의 back-translation 등의 단일 언어 코퍼스 활용 방법에 대한 재해석을 제공합니다. 더군다나 통계에 기반하여 해석이 훨씬 수월하다 보니 현재 딥러닝 학계의 연구방향과 많은 부분에서 일치하므로, 향후 발전 가능성이 더 높다고 볼 수 있습니다. 이처럼 다양한 방법을 통해 기존 seq2seq 방식에서의 단점을 보완하려는 시도들이 있었으며, 이를 통해 우리는 한발 더 자연어 생성 문제 해결에 다가설 수 있었습니다.