Iterative Context-Aware Graph Inference für Visual Dialog

Visuelle Dialogführung ist eine anspruchsvolle Aufgabe, die die Verständnisfähigkeit semantischer Abhängigkeiten zwischen impliziten visuellen und textuellen Kontexten erfordert. Diese Aufgabe kann als Relationsschluß in einem grafischen Modell mit spärlichen Kontexten und unbekannter Graphstruktur (Relationenbeschreiber) interpretiert werden, und die Modellierung der zugrundeliegenden kontextbewussten Relationsschlußprozesse ist entscheidend. Um dies zu erreichen, schlagen wir ein neuartiges kontextbewusstes Graph-Netzwerk (Context-Aware Graph, CAG) vor. Jeder Knoten im Graphen entspricht einem gemeinsamen semantischen Merkmal, das sowohl objektbasierte (visuelle) als auch historiebezogene (textuelle) Kontextrepräsentationen umfasst. Die Graphstruktur (Relationen im Dialog) wird iterativ mittels eines adaptiven Top-$K$-Nachrichtenübertragungsmechanismus aktualisiert. Genauer gesagt wählt jeder Knoten in jedem Schritt der Nachrichtenübertragung die $K$ relevantesten Nachbarn aus und empfängt Nachrichten ausschließlich von diesen. Anschließend wird nach der Aktualisierung auf allen Knoten ein Graph-Attention-Mechanismus angewendet, um die finale Graph-Embedding zu erzeugen und die Antwort abzuleiten. In CAG besitzt jeder Knoten dynamische Relationen innerhalb des Graphen (verschiedene, relevante Nachbarn mit $K$-Größe), und nur die relevantesten Knoten tragen zur kontextbewussten Relationsschlußprozessierung bei. Experimentelle Ergebnisse auf den Datensätzen VisDial v0.9 und v1.0 zeigen, dass CAG vergleichbare Methoden übertrifft. Visuelle Ergebnisse bestätigen zudem die Interpretierbarkeit unseres Ansatzes.