Das Lernen des Zählens von Objekten in natürlichen Bildern für visuelle Fragebeantwortung

Visuelle Fragebeantwortungsmodelle (VQA) haben bisher Schwierigkeiten damit gehabt, Objekte in natürlichen Bildern zu zählen. Wir identifizieren ein grundlegendes Problem aufgrund der weichen Aufmerksamkeit (soft attention) in diesen Modellen als Ursache. Um dieses Problem zu umgehen, schlagen wir eine neuronale Netzwerkkomponente vor, die es ermöglicht, robust aus Objektvorschlägen zu zählen. Experimente mit einer einfachen Aufgabe zeigen die Effektivität dieser Komponente, und wir erzielen den Stand der Technik in Genauigkeit für die Kategorie "Zahl" des VQA v2-Datensatzes, ohne andere Kategorien negativ zu beeinflussen. Tatsächlich übertreffen unsere einzelnen Modelle sogar Ensemble-Modelle. Bei einem schwierigen balancierten Paarmetrik führt die Komponente zu einem erheblichen Fortschritt im Zählen von 6,6 % über eine starke Baseline hinweg.