HyperAIHyperAI
vor 2 Monaten

RUBi: Reduzierung von unimodalen Verzerrungen in der visuellen Fragebeantwortung

Remi Cadene; Corentin Dancette; Hedi Ben-younes; Matthieu Cord; Devi Parikh
RUBi: Reduzierung von unimodalen Verzerrungen in der visuellen Fragebeantwortung
Abstract

Visuelles Fragenbeantworten (VQA) ist die Aufgabe, Fragen zu einem Bild zu beantworten. Einige VQA-Modelle nutzen häufig einmodale Verzerrungen, um die richtige Antwort ohne Verwendung der Bildinformationen zu liefern. Als Ergebnis erleiden sie einen starken Leistungsverlust, wenn sie auf Daten evaluiert werden, die außerhalb ihrer Trainingsdatenverteilung liegen. Dieses kritische Problem macht sie für reale Anwendungsszenarien ungeeignet.Wir schlagen RUBi vor, eine neue Lernstrategie zur Reduzierung von Verzerrungen in jedem VQA-Modell. Diese Strategie verringert die Bedeutung der am stärksten verzerrten Beispiele, d.h. Beispiele, die korrekt klassifiziert werden können, ohne das Bild zu betrachten. Sie zwingt das VQA-Modell implizit, beide Eingabemodalitäten zu verwenden, anstatt sich auf statistische Regularitäten zwischen Frage und Antwort zu verlassen. Wir nutzen ein Modell nur für Fragen, das Sprachverzerrungen durch Identifikation dieser unerwünschten Regularitäten erfasst. Es beeinflusst die Vorhersagen des Basis-VQA-Modells und verhindert so das Erlernen dieser Regularitäten. Dies führt zu einer dynamischen Anpassung des Verlusts, um Verzerrungen auszugleichen. Wir validieren unsere Beiträge durch Übertreffen der aktuellen Stand-of-the-Art-Ergebnisse auf VQA-CP v2. Dieser Datensatz ist speziell darauf ausgelegt, die Robustheit von VQA-Modellen bei unterschiedlichen Frageverzerrungen während der Testphase im Vergleich zum Training zu bewerten.Unser Code ist verfügbar: github.com/cdancette/rubi.bootstrap.pytorch