HyperAIHyperAI
vor 2 Monaten

Das V in VQA relevant machen: Die Rolle der Bildverstehens in der visuellen Fragebeantwortung erhöhen

Yash Goyal; Tejas Khot; Douglas Summers-Stay; Dhruv Batra; Devi Parikh
Das V in VQA relevant machen: Die Rolle der Bildverstehens in der visuellen Fragebeantwortung erhöhen
Abstract

Probleme am Schnittpunkt von Vision und Sprache sind sowohl als herausfordernde Forschungsfragen als auch aufgrund der reichen Palette von Anwendungen, die sie ermöglichen, von großer Bedeutung. Allerdings neigen die inhärente Struktur unserer Welt und der Bias in unserer Sprache dazu, ein einfacheres Signal für das Lernen darzustellen als visuelle Modalitäten, was zu Modellen führt, die visuelle Informationen ignorieren und dadurch einen übertriebenen Eindruck ihrer Leistungsfähigkeit vermitteln.Wir schlagen vor, diese sprachlichen A-priori-Wissensvoraussetzungen für die Aufgabe des visuellen Fragenbeantwortens (Visual Question Answering, VQA) zu kompensieren und sicherzustellen, dass Vision (das V in VQA) eine Rolle spielt! Genauer gesagt balancieren wir den beliebten VQA-Datensatz durch das Sammeln komplementärer Bilder, sodass jede Frage in unserem balancierten Datensatz nicht nur mit einem einzelnen Bild, sondern mit einem Paar ähnlicher Bilder verbunden ist, die zu zwei verschiedenen Antworten auf die Frage führen. Unser Datensatz ist durch seine Konstruktion ausgeglichener als der ursprüngliche VQA-Datensatz und enthält etwa doppelt so viele Bild-Frage-Paare. Unser vollständig balancierter Datensatz ist öffentlich zugänglich unter www.visualqa.org im Rahmen der zweiten Iteration des Visual Question Answering Datasets und Challenges (VQA v2.0).Darüber hinaus bewerten wir eine Reihe von state-of-the-art-VQA-Modellen anhand unseres balancierten Datensatzes. Alle Modelle erzielen bei unserem balancierten Datensatz deutlich schlechtere Ergebnisse, was darauf hinweist, dass diese Modelle tatsächlich gelernt haben, sprachliche A-priori-Wissensvoraussetzungen auszunutzen. Diese Erkenntnis liefert erstmals konkrekte empirische Beweise für ein bislang qualitativ wahrgenommenes Gefühl unter Praktikern.Schließlich ermöglicht unser Protokoll zur Identifizierung komplementärer Bilder uns, ein neuartiges interpretierbares Modell zu entwickeln. Dieses Modell bietet neben einer Antwort auf das gegebene (Bild, Frage)-Paar auch eine Gegenbeispiel-basierte Erklärung. Genauer gesagt identifiziert es ein Bild, das dem ursprünglichen Bild ähnlich ist, aber laut Modell eine andere Antwort auf dieselbe Frage hat. Dies kann dazu beitragen, Vertrauen in Maschinen bei ihren Nutzern aufzubauen.