Zwei können dieses Spiel spielen: Visuelles Dialog mit diskriminativer Fragegenerierung und -beantwortung

Menschliche Konversation ist ein komplexes Mechanismus mit feinen Nuancen. Es ist daher ein ehrgeiziges Ziel, künstliche Intelligenz-Agenten zu entwickeln, die fließend an einer Konversation teilnehmen können. Obwohl wir diesem Ziel noch weit entfernt sind, zeigen jüngste Fortschritte im Bereich der visuellen Fragebeantwortung, Bildunterschriftenerstellung und visuellen Fragegenerierung, dass Dialogsysteme in nicht allzu ferner Zukunft realisierbar sein könnten. Zu diesem Zweck wurde kürzlich ein neuer Datensatz vorgestellt und vielversprechende Ergebnisse erzielt, insbesondere bei der Fragebeantwortung. In dieser Arbeit demonstrieren wir eine einfache symmetrische diskriminative Baseline-Methode, die sowohl für die Vorhersage von Antworten als auch für die Vorhersage von Fragen angewendet werden kann. Wir zeigen, dass diese Methode den aktuellen Stand der Technik entspricht, sogar solchen basierend auf Memory Nets (Gedächtnisnetze). Zudem bewerten wir erstmals die Leistung eines Systems beim Stellen von Fragen im visuellen Dialog-Datensatz und demonstrieren, wie visueller Dialog durch diskriminative Fragegenerierung und -beantwortung generiert werden kann.