Visuelle Dialoge mit strukturellen und teilweisen Beobachtungen begründen

Wir schlagen ein neues Modell vor, um die Aufgabe des visuellen Dialogs zu bearbeiten, der komplexe Dialogstrukturen aufweist. Um eine angemessene Antwort basierend auf der aktuellen Frage und dem Dialogverlauf zu erhalten, sind die zugrunde liegenden semantischen Abhängigkeiten zwischen den Dialogentitäten entscheidend. In dieser Arbeit formalisieren wir diese Aufgabe explizit als Inferenz in einem graphischen Modell mit teilweise beobachteten Knoten und unbekannten Graphstrukturen (Relationen im Dialog). Die gegebenen Dialogentitäten werden als beobachtete Knoten betrachtet. Die Antwort auf eine gegebene Frage wird durch einen Knoten mit fehlendem Wert repräsentiert. Zunächst führen wir einen Erwartungswert-Maximierungsalgorithmus (Expectation Maximization) ein, um sowohl die zugrunde liegenden Dialogstrukturen als auch die fehlenden Knotenwerte (gewünschten Antworten) zu inferieren. Basierend darauf schlagen wir eine differenzierbare Lösung mit Graph Neural Networks (GNN) vor, die diesen Prozess approximiert. Experimentelle Ergebnisse auf den Datensätzen VisDial und VisDial-Q zeigen, dass unser Modell vergleichbare Methoden übertrifft. Es wurde außerdem festgestellt, dass unsere Methode die zugrunde liegende Dialogstruktur für bessere Dialogreasoning inferieren kann.