vor 2 Monaten

Graph-basierte Darstellungen für visuelle Fragebeantwortung

Damien Teney; Lingqiao Liu; Anton van den Hengel

Abstract

Dieses Papier schlägt vor, die visuelle Fragebeantwortung (VQA) durch strukturierte Darstellungen sowohl der Szeneinhalte als auch der Fragen zu verbessern. Eine wesentliche Herausforderung bei VQA besteht darin, eine gemeinsame Schlussfolgerung über die visuelle und textuelle Domäne zu ziehen. Der vorherrschende CNN/LSTM-basierte Ansatz zur VQA ist durch monolithische Vektordarstellungen begrenzt, die die Struktur in der Szene und in der Formulierung der Frage weitgehend ignorieren. CNN-Featurevektoren können Situationen wie einfache Mehrfachobjektinstanzen nicht effektiv erfassen, und LSTMs verarbeiten Fragen als Wortreihenfolgen, was die wahre Komplexität der Sprachstruktur nicht widerspiegelt. Stattdessen schlagen wir vor, Graphen über die Objekte in der Szene und über die Wörter der Frage aufzubauen, und wir beschreiben ein tiefes neuronales Netzwerk, das diese Strukturen ausnutzt. Dies zeigt erhebliche Vorteile gegenüber der sequentiellen Verarbeitung durch LSTMs. Die Gesamtwirksamkeit unseres Ansatzes wird durch erhebliche Verbesserungen im Vergleich zum Stand der Technik demonstriert: von 71,2 % auf 74,4 % in Genauigkeit beim Benchmark für „abstrakte Szenen“ mit Multiple-Choice-Fragen und von 34,7 % auf 39,1 % in Genauigkeit bei Paaren von „balancierten“ Szenen, d.h. Bildern mit feingranulären Unterschieden und entgegengesetzten Ja/Nein-Antworten auf dieselbe Frage.