vor 2 Monaten

Adversariales Lernen für die neuronale Dialoggenerierung

Jiwei Li; Will Monroe; Tianlin Shi; Sébastien Jean; Alan Ritter; Dan Jurafsky

Abstract

In dieser Arbeit, inspiriert von der Intuition des Turing-Tests, schlagen wir die Verwendung von adversarialem Training für die Generierung offener Dialoge vor: das System wird trainiert, Sequenzen zu erzeugen, die sich nicht von menschlich erzeugten Dialogaussagen unterscheiden lassen. Wir formulieren die Aufgabe als ein Problem des Reinforcement Learnings (RL), bei dem wir zwei Systeme gemeinsam trainieren: ein generatives Modell zur Erzeugung von Antwortsequenzen und einen Diskriminator – analog zum menschlichen Beurteiler im Turing-Test – um zwischen menschlich erzeugten und maschinell erzeugten Dialogen zu unterscheiden. Die Ausgaben des Diskriminators werden dann als Belohnungen für das generative Modell verwendet, wodurch das System angeregt wird, Dialoge zu generieren, die größtenteils den menschlichen Dialogen ähneln.Neben dem adversariellen Training beschreiben wir ein Modell für adversariale {\em Bewertung}, das den Erfolg im Täuschen eines Gegners als Metrik zur Evaluierung von Dialogen verwendet, während es gleichzeitig eine Reihe potentieller Fallen vermeidet. Experimentelle Ergebnisse auf mehreren Metriken, einschließlich der adversariellen Bewertung, zeigen, dass das adversariell trainierte System qualitativ bessere Antworten erzeugt als frühere Baseline-Modelle.