HyperAIHyperAI

Command Palette

Search for a command to run...

VQA-E: Erklären, Erweitern und Verbessern Ihrer Antworten auf visuelle Fragen

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

Zusammenfassung

Die meisten bisherigen Arbeiten im Bereich des visuellen Fragenstellens und -Beantwortens (Visual Question Answering, VQA) konzentrieren sich auf die Steigerung der Genauigkeit vorhergesagter Antworten, während sie Erklärungen vernachlässigen. Wir argumentieren, dass die Erklärung einer Antwort mindestens ebenso wichtig – oder sogar noch wichtiger – ist als die Antwort selbst, da sie den Frage- und Antwortprozess verständlicher und nachvollziehbarer macht. Um dies zu erreichen, schlagen wir eine neue Aufgabenstellung vor: VQA-E (VQA mit Erklärung), bei der die computergestützten Modelle nicht nur eine Antwort, sondern auch eine Erklärung für diese Antwort generieren müssen. Zunächst erstellen wir eine neue Datensammlung und formulieren das VQA-E-Problem innerhalb eines Mehraufgaben-Lernrahmens. Unser VQA-E-Datensatz wird automatisch aus dem VQA v2-Datensatz abgeleitet, indem intelligente Ausnutzung der verfügbaren Bildunterschriften erfolgt. Wir haben eine Nutzerstudie durchgeführt, um die Qualität der von unserer Methode synthetisierten Erklärungen zu validieren. Quantitativ zeigen wir, dass die zusätzliche Supervision durch Erklärungen nicht nur aussagekräftige Textsätze zur Begründung der Antworten erzeugt, sondern auch die Leistungsfähigkeit der Antwortvorhersage verbessert. Unser Modell erreicht auf dem VQA v2-Datensatz deutlich bessere Ergebnisse als die derzeitigen State-of-the-Art-Methoden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VQA-E: Erklären, Erweitern und Verbessern Ihrer Antworten auf visuelle Fragen | Paper | HyperAI