VQA: Visuelle Fragebeantwortung

Wir schlagen die Aufgabe des freien und offenen visuellen Fragenbeantwortens (Visual Question Answering, VQA) vor. Bei dieser Aufgabe soll auf ein Bild und eine natürlichsprachliche Frage zu diesem Bild eine genaue natürlichsprachliche Antwort gegeben werden. Diese Aufgabe spiegelt realweltliche Szenarien wider, wie zum Beispiel die Unterstützung von Sehbehinderten, wobei sowohl Fragen als auch Antworten offen sind. Visuelle Fragen richten sich selektiv auf verschiedene Bereiche eines Bildes, einschließlich Hintergrunddetails und dem zugrunde liegenden Kontext. Daher benötigt ein System, das bei VQA erfolgreich ist, in der Regel ein detaillierteres Verständnis des Bildes und komplexere Schlussfolgerungen als ein System, das generische Bildunterschriften erstellt. Zudem ist VQA für automatische Bewertung geeignet, da viele offene Antworten nur wenige Wörter oder eine abgeschlossene Menge von Antworten enthalten, die im Multiple-Choice-Format bereitgestellt werden können. Wir stellen einen Datensatz zur Verfügung, der ~0,25 Mio. Bilder, ~0,76 Mio. Fragen und ~10 Mio. Antworten enthält (www.visualqa.org), und diskutieren die von ihm bereitgestellten Informationen. Zahlreiche Baseline-Verfahren und Methoden für VQA werden vorgestellt und mit der menschlichen Leistung verglichen. Unsere VQA-Demo ist auf CloudCV verfügbar (http://cloudcv.org/vqa).