FVQA: Faktbasierte visuelle Fragebeantwortung

Visuelles Fragebeantworten (VQA) hat in den Fachgebieten der Computer Vision und der Natürlichen Sprachverarbeitung viel Aufmerksamkeit gefunden, nicht zuletzt weil es Einblicke in die Beziehungen zwischen zwei wichtigen Informationsquellen bietet. Aktuelle Datensätze und darauf basierende Modelle haben sich auf Fragen konzentriert, die durch eine direkte Analyse von Frage und Bild allein beantwortbar sind. Die Menge solcher Fragen, die ohne externe Informationen beantwortet werden können, ist zwar interessant, aber sehr begrenzt. Sie schließt zum Beispiel Fragen aus, die allgemeines Wissen oder grundlegende Fakten erfordern.Hier stellen wir FVQA vor, einen VQA-Datensatz, der tiefergehendes Denken erfordert und unterstützt. FVQA enthält ausschließlich Fragen, deren Beantwortung externe Informationen benötigt.Wir erweitern damit einen konventionellen visuellen Fragebeantwortungsdatensatz, der Bild-Frage-Antwort-Tripel enthält, um zusätzliche Bild-Frage-Antwort-Unterstützungsdaten-Tupel. Die Unterstützungsdaten werden als strukturelles Tripel dargestellt, wie zum Beispiel <Katze,Fähigkeiten,BäumeKlettern> (Cat,CapableOf,ClimbingTrees).Wir evaluieren mehrere Basismodelle auf dem FVQA-Datensatz und beschreiben ein neues Modell, das in der Lage ist, auf Grundlage von Unterstützungsdaten über ein Bild zu schlussfolgern.