폴리시 그래디언트 방법을 자연어 생성에 적용해 얻을 수 있는 이점은 크게 두 가지입니다. 첫째, 자기회귀 속성으로 인해 실제 추론 방식과 다르게 훈련해야 하는 teacher-forcing 훈련 방법을 탈피하여, 실제 추론 방식과 같은 샘플링을 통해서 문장 생성 능력을 높일 수 있습니다. 둘째, 더 정확한 목적 함수를 훈련할 수 있습니다. 기존의 PPL은 번역 품질 또는 문장의 생성 품질을 정확하게 반영할 수 없는 단점을 갖고 있었고, 때문에 BLEU 또는 기타 여러 가지 매트릭을 사용해 모델에 대한 성능을 측정할 수 있었습니다. 하지만 BLEU와 같은 평가 함수는 미분을 할 수가 없었으므로, PPL과 동일한 교차 엔트로피를 활용하여 신경망을 훈련해야 했습니다. 폴리시 그래디언트는 보상 함수에 미분을 할 필요가 없기 때문에, 이 점을 활용하면 어떤 보상 함수든지 활용하여 신경망을 훈련할 수 있는 것입니다.