HyperAIHyperAI
vor 2 Monaten

Bilineare Graph-Netzwerke für visuelle Fragebeantwortung

Dalu Guo; Chang Xu; Dacheng Tao
Bilineare Graph-Netzwerke für visuelle Fragebeantwortung
Abstract

Dieses Papier untersucht die bilinearen Aufmerksamkeitsnetzwerke (bilineare Attention Networks) in der visuellen Fragebeantwortungsaufgabe (Visual Question Answering Task) aus graphentheoretischer Perspektive. Die klassischen bilinearen Aufmerksamkeitsnetzwerke erstellen eine bilineare Aufmerksamkeitskarte, um die gemeinsame Darstellung von Wörtern in der Frage und Objekten im Bild zu extrahieren, aber sie erforschen das Verhältnis zwischen den Wörtern für komplexe Schlussfolgerungen nicht vollständig. Im Gegensatz dazu entwickeln wir bilineare Graphennetzwerke, um den Kontext der gemeinsamen Einbettungen von Wörtern und Objekten zu modellieren. Zwei Arten von Graphen werden untersucht: den Image-Graph und den Question-Graph.Der Image-Graph überträgt Merkmale der erkannten Objekte auf ihre zugehörigen Abfrage-Wörter, wodurch die Ausgabeknoten sowohl semantische als auch faktuelle Informationen besitzen. Der Question-Graph tauscht Informationen zwischen diesen Ausgabeknoten des Image-Graphs aus, um das implizite, aber wichtige Verhältnis zwischen den Objekten zu verstärken. Diese beiden Arten von Graphen arbeiten zusammen, sodass unser resultierendes Modell das Verhältnis und die Abhängigkeit zwischen den Objekten modellieren kann, was zur Realisierung von mehrstufiger Schlussfolgerung führt.Experimentelle Ergebnisse auf dem VQA v2.0 Validierungsdatensatz demonstrieren die Fähigkeit unserer Methode, komplexe Fragen zu bearbeiten. Auf dem Test-Std-Datensatz erreicht unser bestes einzelnes Modell eine state-of-the-art-Leistung und steigert die Gesamtgenauigkeit auf 72,41 %.