vor 17 Tagen

Jenseits fragebasierter Verzerrungen: Bewertung multimodaler Kurzschlusslernverhalten im visuellen Fragenbeantworten

Corentin Dancette, Remi Cadene, Damien Teney, Matthieu Cord

Abstract

Wir stellen eine Evaluationsmethodik für visuelle Fragebeantwortung (Visual Question Answering, VQA) vor, die dazu dient, Fälle von Shortcut-Lernen (Kurzschlusslernen) besser zu diagnostizieren. Solche Fälle treten auf, wenn ein Modell statistische Spur-Regelmäßigkeiten ausnutzt, um korrekte Antworten zu liefern, dabei jedoch nicht tatsächlich das gewünschte Verhalten demonstriert. Es besteht ein dringender Bedarf, mögliche Kurzschlüsse in Datensätzen zu identifizieren und deren Nutzung vor der realen Anwendung eines Modells zu bewerten. Die Forschungsgemeinschaft im Bereich VQA hat sich bisher ausschließlich auf fragebasierte Kurzschlüsse konzentriert, bei denen ein Modell beispielsweise die Frage „Was ist die Farbe des Himmels?“ mit „blau“ beantwortet, indem es hauptsächlich auf den fragebedingten Trainingsprior setzt und nur geringe Gewichtung visuellen Beweisen beifügt. Wir gehen einen Schritt weiter und betrachten multimodale Kurzschlüsse, die sowohl Fragen als auch Bilder einbeziehen. Zunächst identifizieren wir potenzielle Kurzschlüsse im gängigen VQA v2-Trainingsdatensatz, indem wir triviale prädiktive Regeln wie Wort- und visuelle Elemente-Übereinstimmungen extrahieren. Anschließend führen wir VQA-CounterExamples (VQA-CE) ein, ein Evaluationsprotokoll, das auf einer Teilmenge von Gegenbeispielen – also Bild-Frage-Antwort-Tripeln – basiert, bei denen unsere Regeln zu falschen Antworten führen. Wir setzen diese neue Evaluationsmethode in einer großangelegten Studie bestehender VQA-Ansätze ein. Wir zeigen, dass selbst state-of-the-art-Modelle in diesem Kontext schlecht abschneiden und dass bestehende Techniken zur Reduktion von Verzerrungen in diesem Bereich weitgehend wirkungslos sind. Unsere Ergebnisse deuten darauf hin, dass frühere Arbeiten zu fragebasierten Verzerrungen in der VQA lediglich eine Facette eines komplexen Problems adressiert haben. Der Quellcode für unsere Methode ist unter https://github.com/cdancette/detect-shortcuts verfügbar.