Für die Verwendung von Gittermerkmalen im visuellen Fragenbeantworten

Als „bottom-up“-Aufmerksamkeit bekannt, haben kürzlich regionenbasierte visuelle Merkmale, die auf Bounding Boxes beruhen, herkömmliche, auf Gittern basierende konvolutionale Merkmale als Standard für visuelle Sprachaufgaben wie Visual Question Answering (VQA) abgelöst. Es ist jedoch unklar, ob die Vorteile von Regionen – beispielsweise eine bessere Lokalisierung – die entscheidenden Faktoren für den Erfolg der bottom-up-Aufmerksamkeit sind. In dieser Arbeit untersuchen wir erneut Gittermerkmale für VQA und stellen fest, dass diese überraschend gut funktionieren – sie laufen dabei mehr als eine Größenordnung schneller bei gleichbleibender Genauigkeit (z. B. wenn sie ähnlich wie herkömmliche Modelle vortrainiert werden). Durch umfangreiche Experimente bestätigen wir, dass diese Beobachtung für verschiedene VQA-Modelle, Datensätze gilt und sich gut auf andere Aufgaben wie Bildbeschreibung überträgt (erreichen eine state-of-the-art-Genauigkeit von 72,71 auf dem VQA 2.0 test-std). Da Gittermerkmale die Modellgestaltung und das Trainingsverfahren erheblich vereinfachen, ermöglichen sie eine end-to-end-Trainierung sowie eine flexiblere Netzwerkarchitektur. Wir trainieren VQA-Modelle end-to-end direkt von Bildpixeln zu Antworten, ohne dass während des Vortrainings regionale Annotationen benötigt werden. Wir hoffen, dass unsere Erkenntnisse zur vertieften wissenschaftlichen Verständnis und praktischen Anwendung von VQA beitragen. Der Quellcode und die Merkmale werden verfügbar gemacht.