Ein fokussiertes dynamisches Aufmerksamkeitsmodell für visuelle Fragebeantwortung

Visuelle Frage- und Antwortprobleme (VQA) erregen zunehmendes Interesse in verschiedenen Forschungsdisciplinen. Die Lösung von VQA-Problemen erfordert Techniken sowohl aus der Computer Vision zur Interpretation des visuellen Inhalts eines präsentierten Bildes oder Videos als auch aus der Natürlichen Sprachverarbeitung (NLP) zum Verstehen der Semantik der Frage und zur Generierung von Antworten. Was die Modellierung des visuellen Inhalts betrifft, greifen die meisten existierenden VQA-Methoden auf die Strategie zurück, globale Merkmale aus dem Bild oder Video zu extrahieren, was unvermeidlich fehlschlägt, wenn es darum geht, detaillierte Informationen wie die räumliche Anordnung mehrerer Objekte zu erfassen. Die Extraktion von Merkmalen aus automatisch generierten Regionen – wie dies einige regionenbasierte Bilderkennungsmethoden tun – kann dieses Problem im Wesentlichen nicht lösen und könnte einige überwältigende irrelevante Merkmale in Bezug auf die Frage einführen. In dieser Arbeit schlagen wir ein neues Modell namens Focused Dynamic Attention (FDA) vor, um eine bessere Ausrichtung der Bildinhaltsdarstellung auf die gestellten Fragen zu gewährleisten. FDA nutzt bewusst Schlüsselwörter in der Frage und verwendet einen fertigen Objekterkennungsmodul, um wichtige Bereiche zu identifizieren und die Informationen aus diesen Bereichen mit den globalen Merkmalen durch eine LSTM-Einheit zu fusionieren. Diese fragengesteuerten Darstellungen werden dann mit der Fragedarstellung kombiniert und in eine Schlußfolgerungseinheit eingegeben, um die Antworten zu generieren. Eine umfangreiche Evaluierung auf einem großen Benchmark-Datensatz, VQA, zeigt deutlich die überlegene Leistung des FDA im Vergleich zu etablierten Baselines.