HyperAIHyperAI

Command Palette

Search for a command to run...

VQA: Visuelle Fragebeantwortung

Aishwarya Agrawal; Jiasen Lu; Stanislaw Antol; Margaret Mitchell; C. Lawrence Zitnick; Dhruv Batra; Devi Parikh

Zusammenfassung

Wir schlagen die Aufgabe des freien und offenen visuellen Fragenbeantwortens (Visual Question Answering, VQA) vor. Bei dieser Aufgabe soll auf ein Bild und eine natürlichsprachliche Frage zu diesem Bild eine genaue natürlichsprachliche Antwort gegeben werden. Diese Aufgabe spiegelt realweltliche Szenarien wider, wie zum Beispiel die Unterstützung von Sehbehinderten, wobei sowohl Fragen als auch Antworten offen sind. Visuelle Fragen richten sich selektiv auf verschiedene Bereiche eines Bildes, einschließlich Hintergrunddetails und dem zugrunde liegenden Kontext. Daher benötigt ein System, das bei VQA erfolgreich ist, in der Regel ein detaillierteres Verständnis des Bildes und komplexere Schlussfolgerungen als ein System, das generische Bildunterschriften erstellt. Zudem ist VQA für automatische Bewertung geeignet, da viele offene Antworten nur wenige Wörter oder eine abgeschlossene Menge von Antworten enthalten, die im Multiple-Choice-Format bereitgestellt werden können. Wir stellen einen Datensatz zur Verfügung, der ~0,25 Mio. Bilder, ~0,76 Mio. Fragen und ~10 Mio. Antworten enthält (www.visualqa.org), und diskutieren die von ihm bereitgestellten Informationen. Zahlreiche Baseline-Verfahren und Methoden für VQA werden vorgestellt und mit der menschlichen Leistung verglichen. Unsere VQA-Demo ist auf CloudCV verfügbar (http://cloudcv.org/vqa).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VQA: Visuelle Fragebeantwortung | Paper | HyperAI