Best of Both Worlds: Wissenstransfer von diskriminativem Lernen zu einem generativen visuellen Dialogmodell

Wir präsentieren ein neues Trainingsframework für neurale Sequenzmodelle, insbesondere für die Erzeugung von dialogbasierten Interaktionen mit Grundlage in der Realität (grounded dialog generation). Das Standard-Trainingsparadigma für diese Modelle ist die Maximum-Likelihood-Schätzung (MLE) oder das Minimieren der Kreuzentropie der menschlichen Antworten. In verschiedenen Domänen tritt bei MLE-geschulten generativen neuronalen Dialogmodellen (G) ein wiederkehrendes Problem auf: Sie neigen dazu, „sichere“ und allgemeine Antworten zu produzieren (wie „Ich weiß es nicht“ oder „Ich kann das nicht sagen“). Im Gegensatz dazu übertreffen diskriminative Dialogmodelle (D), die trainiert werden, um eine Liste von potenziellen menschlichen Antworten zu bewerten, ihre generativen Entsprechungen in Bezug auf automatische Metriken, Vielfalt und Informationsgehalt der Antworten. Allerdings sind D in der Praxis nicht nützlich, da sie nicht zur Durchführung echter Konversationen mit Benutzern eingesetzt werden können.Unser Ziel ist es, das Beste aus beiden Welten zu vereinen – die praktische Nutzbarkeit von G und die starke Leistungsfähigkeit von D – durch Wissensübertragung von D zu G. Unser Hauptbeitrag besteht in einem end-to-end trainierbaren generativen visuellen Dialogmodell, bei dem G Gradienten von D als wahrnehmungsbezogenes (nicht adversariales) Verlustsignal einer von G erzeugten Sequenz erhält. Wir nutzen die kürzlich vorgeschlagene Gumbel-Softmax-Approximation (GS) zur diskreten Verteilung – spezifisch ein RNN, das mit einer Sequenz von GS-Samplern erweitert wurde und zusammen mit dem straight-through Gradientenschätzer verwendet wird, um eine end-to-end Differenzierbarkeit zu ermöglichen. Darüber hinaus führen wir einen stärkeren Encoder für visuelle Dialoge ein und setzen einen Selbst-Aufmerksamkeitsmechanismus für die Antwortkodierung sowie einen metrischen Lernverlust ein, um D dabei zu unterstützen, semantische Ähnlichkeiten in den Antwortreaktionen besser zu erfassen. Insgesamt übertrifft unser vorgeschlagenes Modell den aktuellen Stand der Technik im VisDial-Datensatz deutlich (um 2,67 % bei Recall@10). Der Quellcode kann unter https://github.com/jiasenlu/visDial.pytorch heruntergeladen werden.