Zeigen, Fragen, Beachten und Beantworten: Eine starke Grundlinie für visuelle Fragebeantwortung

Dieses Papier präsentiert eine neue Baseline für die Aufgabe des visuellen Fragenbeantwortens. Angesichts eines Bildes und einer Frage in natürlicher Sprache erzeugt unser Modell genaue Antworten, die sich am Inhalt des Bildes orientieren. Unser Modell, das architekturtechnisch einfach gehalten ist und relativ wenige trainierbare Parameter aufweist, legt einen neuen Stand der Technik sowohl bei unbalancierten als auch balancierten VQA-Benchmarks fest. Bei der VQA 1.0 Open-Ended Challenge erreicht unser Modell ohne Verwendung zusätzlicher Daten eine Genauigkeit von 64,6 % im Test-Standard-Datensatz, was eine Verbesserung um 0,4 % gegenüber dem aktuellen Stand der Technik darstellt. Bei dem neu veröffentlichten VQA 2.0 erzielt unser Modell eine Genauigkeit von 59,7 % im Validierungsdatensatz, wodurch es die besten bisher gemeldeten Ergebnisse um 0,5 % übertrifft. Die in diesem Papier präsentierten Ergebnisse sind besonders interessant, da sehr ähnliche Modelle zuvor bereits getestet wurden, jedoch deutlich geringere Leistungen gemeldet wurden. Im Licht dieser neuen Ergebnisse hoffen wir, zukünftig mehr sinnvolle Forschung zum Thema visuelles Fragenbeantworten zu sehen.