Évaluation des récompenses pour les modèles de génération de questions

Les approches récentes en génération de questions ont utilisé des modifications d'une architecture Seq2Seq inspirées par les progrès dans la traduction automatique. Les modèles sont formés en utilisant le forcing du professeur pour optimiser uniquement la prédiction à un pas de retard. Cependant, lors des tests, le modèle est invité à générer une séquence complète, ce qui entraîne la propagation des erreurs tout au long du processus de génération (biais d'exposition). Plusieurs auteurs ont proposé de contrebalancer ce biais en optimisant pour une récompense moins étroitement liée aux données d'entraînement, en utilisant l'apprentissage par renforcement. Nous optimisons directement pour des métriques de qualité, y compris une approche novatrice utilisant un discriminateur appris directement à partir des données d'entraînement. Nous confirmons que les méthodes de gradient de politique peuvent être utilisées pour décorrélérer l'entraînement de la vérité terrain, conduisant à des améliorations des métriques utilisées comme récompenses. Nous effectuons une évaluation humaine et montrons que, bien que ces métriques aient été considérées jusqu'à présent comme de bons indicateurs de la qualité des questions, elles ne sont pas bien alignées avec le jugement humain et le modèle apprend simplement à exploiter les faiblesses de la source de récompense.