HyperAIHyperAI

Command Palette

Search for a command to run...

Graph-basierte Darstellungen für visuelle Fragebeantwortung

Damien Teney Lingqiao Liu Anton van den Hengel

Zusammenfassung

Dieses Papier schlägt vor, die visuelle Fragebeantwortung (VQA) durch strukturierte Darstellungen sowohl der Szeneinhalte als auch der Fragen zu verbessern. Eine wesentliche Herausforderung bei VQA besteht darin, eine gemeinsame Schlussfolgerung über die visuelle und textuelle Domäne zu ziehen. Der vorherrschende CNN/LSTM-basierte Ansatz zur VQA ist durch monolithische Vektordarstellungen begrenzt, die die Struktur in der Szene und in der Formulierung der Frage weitgehend ignorieren. CNN-Featurevektoren können Situationen wie einfache Mehrfachobjektinstanzen nicht effektiv erfassen, und LSTMs verarbeiten Fragen als Wortreihenfolgen, was die wahre Komplexität der Sprachstruktur nicht widerspiegelt. Stattdessen schlagen wir vor, Graphen über die Objekte in der Szene und über die Wörter der Frage aufzubauen, und wir beschreiben ein tiefes neuronales Netzwerk, das diese Strukturen ausnutzt. Dies zeigt erhebliche Vorteile gegenüber der sequentiellen Verarbeitung durch LSTMs. Die Gesamtwirksamkeit unseres Ansatzes wird durch erhebliche Verbesserungen im Vergleich zum Stand der Technik demonstriert: von 71,2 % auf 74,4 % in Genauigkeit beim Benchmark für „abstrakte Szenen“ mit Multiple-Choice-Fragen und von 34,7 % auf 39,1 % in Genauigkeit bei Paaren von „balancierten“ Szenen, d.h. Bildern mit feingranulären Unterschieden und entgegengesetzten Ja/Nein-Antworten auf dieselbe Frage.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Graph-basierte Darstellungen für visuelle Fragebeantwortung | Paper | HyperAI