Greedy Gradient Ensemble für robusteres visuelles Fragenbeantworten

Sprachverzerrung ist ein zentrales Problem im visuellen Fragen-Beantworten (Visual Question Answering, VQA), bei dem Modelle häufig auf Datensatzverzerrungen zurückgreifen, um ihre endgültige Entscheidung zu treffen, ohne die Bildinformation ausreichend zu berücksichtigen. Dadurch leiden sie unter einer Leistungsabnahme bei datenaußerhalb-der-Verteilung (out-of-distribution) und zeigen unzureichende visuelle Erklärbarkeit. Auf Basis einer experimentellen Analyse bestehender robuster VQA-Methoden betonen wir die Sprachverzerrung im VQA, die sich aus zwei Aspekten ergibt: Verteilungsverzerrung und Kurzschlussverzerrung (shortcut bias). Wir schlagen zudem einen neuen Entzerrungsansatz, den Greedy Gradient Ensemble (GGE)-Ansatz, vor, der mehrere verzerrte Modelle kombiniert, um ein verzerrungsfreies Basismodell zu lernen. Durch die Verwendung einer gierigen Strategie zwingt GGE die verzerrten Modelle, die verzerrte Datenverteilung zunächst übermäßig zu überanpassen, wodurch das Basismodell mehr Aufmerksamkeit auf jene Beispiele richtet, die von den verzerrten Modellen schwer zu lösen sind. Experimente zeigen, dass unsere Methode visuelle Informationen besser nutzt und eine state-of-the-art-Leistung beim Diagnostizieren des Datensatzes VQA-CP erzielt, ohne zusätzliche Annotationen zu verwenden.