HyperAIHyperAI
vor einem Monat

Bewertung von Belohnungen für Fragegenerierungsmodelle

Tom Hosking; Sebastian Riedel
Bewertung von Belohnungen für Fragegenerierungsmodelle
Abstract

Neuere Ansätze zur Fragegenerierung haben Änderungen an einer Seq2Seq-Architektur vorgenommen, die von Fortschritten im maschinellen Übersetzen inspiriert sind. Die Modelle werden unter Verwendung des Lehrerzwangs trainiert, um nur die ein Schritt voraus liegende Vorhersage zu optimieren. Allerdings wird das Modell bei der Testphase dazu aufgefordert, eine gesamte Sequenz zu generieren, was dazu führt, dass Fehler durch den Generierungsprozess propagieren (Expositionsfehler). Einige Autoren haben vorgeschlagen, diesen Bias durch Optimierung für eine Belohnung zu bekämpfen, die weniger eng mit den Trainingsdaten verknüpft ist, wobei sie das Verstärkungslernen verwenden. Wir optimieren direkt für Qualitätsmetriken, darunter einen neuen Ansatz, bei dem ein Diskriminator direkt aus den Trainingsdaten gelernt wird. Wir bestätigen, dass Policy-Gradientenmethoden verwendet werden können, um das Training vom Ground Truth zu entkoppeln und somit die in den Belohnungen verwendeten Metriken zu verbessern. Wir führen eine menschliche Bewertung durch und zeigen, dass obwohl diese Metriken bisher als gute Proxy für die Fragequalität angesehen wurden, sie sich schlecht mit menschlichem Urteil abstimmen und das Modell einfach lernt, die Schwächen der Belohnungsquelle auszunutzen.

Bewertung von Belohnungen für Fragegenerierungsmodelle | Neueste Forschungsarbeiten | HyperAI