HyperAIHyperAI
vor 2 Monaten

Selbstkritisches Denken für robuste visuelle Fragebeantwortung

Jialin Wu; Raymond J. Mooney
Selbstkritisches Denken für robuste visuelle Fragebeantwortung
Abstract

Visuelle Fragebeantwortungssysteme (VQA) basierend auf tiefem Lernen neigen dazu, oberflächliche statistische Korrelationen in den Trainingsdaten aufgrund starker sprachlicher A priori-Wahrscheinlichkeiten zu erfassen und scheitern bei der Generalisierung auf Testdaten mit einer erheblich unterschiedlichen Frage-Antwort-(QA)-Verteilung. Um dieses Problem anzugehen, führen wir ein selbstkritisches Trainingsziel ein, das sicherstellt, dass die visuellen Erklärungen für korrekte Antworten die einflussreichsten Bildregionen besser als andere konkurrierende Antwortkandidaten abbilden. Die einflussreichen Regionen werden entweder aus menschlichen visuellen/textuellen Erklärungen oder automatisch aus den aussagekräftigsten Wörtern in Frage und Antwort bestimmt. Wir evaluieren unseren Ansatz anhand der VQA-Generalisierungsaufgabe unter Verwendung des VQA-CP-Datensatzes und erreichen einen neuen Stand der Technik, nämlich 49,5 % durch textuelle Erklärungen und 48,5 % durch automatisch annotierte Regionen.