HyperAIHyperAI

Command Palette

Search for a command to run...

FVQA: Faktbasierte visuelle Fragebeantwortung

Peng Wang* Qi Wu* Chunhua Shen Anthony Dick Anton van den Hengel

Zusammenfassung

Visuelles Fragebeantworten (VQA) hat in den Fachgebieten der Computer Vision und der Natürlichen Sprachverarbeitung viel Aufmerksamkeit gefunden, nicht zuletzt weil es Einblicke in die Beziehungen zwischen zwei wichtigen Informationsquellen bietet. Aktuelle Datensätze und darauf basierende Modelle haben sich auf Fragen konzentriert, die durch eine direkte Analyse von Frage und Bild allein beantwortbar sind. Die Menge solcher Fragen, die ohne externe Informationen beantwortet werden können, ist zwar interessant, aber sehr begrenzt. Sie schließt zum Beispiel Fragen aus, die allgemeines Wissen oder grundlegende Fakten erfordern.Hier stellen wir FVQA vor, einen VQA-Datensatz, der tiefergehendes Denken erfordert und unterstützt. FVQA enthält ausschließlich Fragen, deren Beantwortung externe Informationen benötigt.Wir erweitern damit einen konventionellen visuellen Fragebeantwortungsdatensatz, der Bild-Frage-Antwort-Tripel enthält, um zusätzliche Bild-Frage-Antwort-Unterstützungsdaten-Tupel. Die Unterstützungsdaten werden als strukturelles Tripel dargestellt, wie zum Beispiel <Katze,Fähigkeiten,BäumeKlettern> (Cat,CapableOf,ClimbingTrees).Wir evaluieren mehrere Basismodelle auf dem FVQA-Datensatz und beschreiben ein neues Modell, das in der Lage ist, auf Grundlage von Unterstützungsdaten über ein Bild zu schlussfolgern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp