Sprachbedingte Graphen-Netzwerke für relationales Schließen

Die Lösung von auf der Realität basierenden Sprachaufgaben erfordert oft das Schließen über Beziehungen zwischen Objekten im Kontext einer gegebenen Aufgabe. Zum Beispiel müssen wir, um die Frage „Welche Farbe hat die Tasse auf dem Teller?“ zu beantworten, die Farbe der spezifischen Tasse prüfen, die die Beziehung „auf“ im Verhältnis zum Teller erfüllt. Kürzliche Arbeiten haben verschiedene Methoden vorgeschlagen, die fähig sind, komplexe relationale Schlussfolgerungen zu ziehen. Allerdings liegt ihr Hauptpotenzial in der Inferenzstruktur, während die Szene durch einfache lokale Erscheinungsmerkmale dargestellt wird. In dieser Arbeit nehmen wir einen alternativen Ansatz und bauen kontextualisierte Darstellungen für Objekte in einer visuellen Szene auf, um relationales Denken zu unterstützen. Wir schlagen ein allgemeines Framework von sprachbedingten Graphennetzen (Language-Conditioned Graph Networks, LCGN) vor, bei dem jeder Knoten ein Objekt darstellt und durch eine kontextsensible Darstellung beschrieben wird, die aus verwandten Objekten durch iteratives Nachrichtenaustausch unter Berücksichtigung der textuellen Eingabe abgeleitet wird. Zum Beispiel: Unter Berücksichtigung der Beziehung „auf“ zum Teller sammelt das Objekt „Tasse“ Nachrichten vom Objekt „Teller“, um seine Darstellung zu aktualisieren und sie so zur „Tasse auf dem Teller“ zu machen. Diese Darstellung kann dann leicht von einem einfachen Klassifikator für die Antwortvorhersage verarbeitet werden. Experimentell zeigen wir, dass unser LCGN-Ansatz relationales Denken effektiv unterstützt und die Leistung bei mehreren Aufgaben und Datensätzen verbessert. Unser Code ist unter http://ronghanghu.com/lcgn verfügbar.