Synthese von Gegenfakten-Proben für robustes visuelles Fragenbeantworten

Trotz der beeindruckenden Fortschritte, die im Bereich des Visual Question Answering (VQA) in den letzten Jahren erzielt wurden, neigen heutige VQA-Modelle dazu, oberflächliche sprachliche Korrelationen im Trainingsdatensatz zu erfassen und sich nicht gut auf Testsets mit anderen QA-Verteilungen zu generalisieren. Um Sprachverzerrungen zu reduzieren, haben mehrere neuere Arbeiten ein zusätzlicher, fragebasiertes Modell eingeführt, um den Trainingsprozess des Ziel-VQA-Modells zu regularisieren und erreichen dabei dominierende Ergebnisse auf VQA-CP. Da die derzeitigen Methoden jedoch aufgrund ihrer Komplexität nicht in der Lage sind, ensemblesbasierte Modelle mit zwei entscheidenden Eigenschaften eines idealen VQA-Modells auszustatten – 1) visuell erklärbare Entscheidungsfindung: das Modell sollte sich bei seiner Entscheidung auf die richtigen visuellen Regionen stützen; 2) frageempfindlich: das Modell sollte empfindlich gegenüber sprachlichen Variationen in der Frage sein – schlagen wir einen modellunabhängigen Trainingsansatz namens Counterfactual Samples Synthesizing (CSS) vor. Das CSS erzeugt durch Maskieren kritischer Objekte in Bildern oder Wörter in Fragen zahlreiche gegenfaktische Trainingsbeispiele und weist diesen unterschiedliche Ground-Truth-Antworten zu. Nach dem Training mit den ergänzenden Beispielen (d. h. den ursprünglichen und den generierten) wird das VQA-Modell gezwungen, sich auf alle kritischen Objekte und Wörter zu konzentrieren, was die Fähigkeiten der visuellen Erklärbarkeit und der Frageempfindlichkeit erheblich verbessert. Gleichzeitig wird die Gesamtleistung der Modelle weiter gesteigert. Umfangreiche Ablationsstudien belegen die Wirksamkeit von CSS. Insbesondere erreichen wir mit einer Erweiterung des Modells LMH eine rekordverdächtige Genauigkeit von 58,95 % auf VQA-CP v2, was einer Steigerung um 6,5 % entspricht.