Fragen, beachten und beantworten: Die Erforschung von fragegeleiteter räumlicher Aufmerksamkeit für visuelle Fragebeantwortung

Wir behandeln das Problem des visuellen Fragenbeantwortens (VQA), das eine gemeinsame Verarbeitung von Bildern und Sprache erfordert, um eine Frage zu einem gegebenen Foto zu beantworten. Kürzliche Ansätze haben tiefgreifende Methoden der Bildunterschriftenerstellung basierend auf konvolutionellen-rekurrenten Netzen auf dieses Problem angewendet, sind aber bei der Modellierung räumlicher Inferenz gescheitert. Um dies zu beheben, schlagen wir ein Modell vor, das wir als Räumliches Gedächtnisnetz (Spatial Memory Network) bezeichnen, und wenden es auf die VQA-Aufgabe an. Gedächtnisnetze sind rekurrente Neuronale Netze mit einer expliziten Aufmerksamkeitsmechanismus, der bestimmte Teile der in dem Gedächtnis gespeicherten Informationen auswählt. Unser Räumliches Gedächtnisnetz speichert die Aktivierungen von Neuronen aus verschiedenen räumlichen Bereichen des Bildes in seinem Gedächtnis und verwendet die Frage, um relevante Bereiche für die Antwortberechnung auszuwählen. Dieser Prozess stellt einen einzelnen "Sprung" (hop) im Netz dar. Wir schlagen eine neuartige räumliche Aufmerksamkeitsarchitektur vor, die Wörter mit Bildabschnitten im ersten Sprung ausrichtet, und erzielen verbesserte Ergebnisse durch Hinzufügen eines zweiten Aufmerksamkeitssprungs, der die gesamte Frage berücksichtigt, um visuelle Beweise basierend auf den Ergebnissen des ersten Sprungs auszuwählen. Um den vom Netzwerk gelernten Inferenzprozess besser zu verstehen, entwerfen wir synthetische Fragen, die speziell räumliche Inferenz erfordern, und visualisieren die Aufmerksamkeitsgewichte. Wir bewerten unser Modell anhand zweier veröffentlichter Datensätze für visuelle Fragenbeantwortung, DAQUAR [1] und VQA [2], und erhalten verbesserte Ergebnisse im Vergleich zu einem starken tiefgreifenden Baselinemodell (iBOWIMG), das Bild- und Fragefeatures verbindet, um die Antwort vorherzusagen [3].