Sprechen Sie mit mir? Grundlegende Generierung von visuellen Dialogen durch adversariales Lernen

Die Aufgabe des visuellen Dialogs erfordert von einem Agenten, dass er ein Gespräch über ein Bild mit einem Menschen führt. Sie stellt eine Erweiterung der Aufgabe des visuellen Fragenbeantwortens dar, bei der der Agent eine Frage zu einem Bild beantworten muss, jedoch unter Berücksichtigung des bisher geführten Dialogs. Die wesentliche Herausforderung beim visuellen Dialog besteht daher darin, einen konsistenten und natürlichen Dialog aufrechtzuerhalten, während gleichzeitig korrekt auf Fragen geantwortet wird. Wir stellen einen neuen Ansatz vor, der Reinforcement Learning und Generative Adversarial Networks (GANs) kombiniert, um menschenähnlichere Antworten auf Fragen zu generieren. Das GAN hilft dabei, die relative Knappheit von Trainingsdaten zu überwinden sowie die Neigung herkömmlicher MLE-basierter Ansätze, zu knappe Antworten zu erzeugen. Kritisch ist dabei, dass das GAN eng in den Aufmerksamkeitsmechanismus integriert ist, der menschenlesbare Gründe für jede Antwort generiert. Dies bedeutet, dass das diskriminative Modell des GANs die Aufgabe hat, zu bewerten, ob eine potentielle Antwort von einem Menschen stammt oder nicht, basierend auf dem bereitgestellten Grund. Dies ist bedeutsam, da es das generative Modell dazu anregt, hochwertige Antworten zu produzieren, die durch die zugehörige Begründung gut gestützt sind. Die Methode erzielt außerdem standesgemäße Ergebnisse im Hauptbenchmark.