HyperAIHyperAI

Command Palette

Search for a command to run...

Évaluation des récompenses pour les modèles de génération de questions

Tom Hosking Sebastian Riedel

Résumé

Les approches récentes en génération de questions ont utilisé des modifications d'une architecture Seq2Seq inspirées par les progrès dans la traduction automatique. Les modèles sont formés en utilisant le forcing du professeur pour optimiser uniquement la prédiction à un pas de retard. Cependant, lors des tests, le modèle est invité à générer une séquence complète, ce qui entraîne la propagation des erreurs tout au long du processus de génération (biais d'exposition). Plusieurs auteurs ont proposé de contrebalancer ce biais en optimisant pour une récompense moins étroitement liée aux données d'entraînement, en utilisant l'apprentissage par renforcement. Nous optimisons directement pour des métriques de qualité, y compris une approche novatrice utilisant un discriminateur appris directement à partir des données d'entraînement. Nous confirmons que les méthodes de gradient de politique peuvent être utilisées pour décorrélérer l'entraînement de la vérité terrain, conduisant à des améliorations des métriques utilisées comme récompenses. Nous effectuons une évaluation humaine et montrons que, bien que ces métriques aient été considérées jusqu'à présent comme de bons indicateurs de la qualité des questions, elles ne sont pas bien alignées avec le jugement humain et le modèle apprend simplement à exploiter les faiblesses de la source de récompense.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp