Command Palette
Search for a command to run...
VQA-E: Erklären, Erweitern und Verbessern Ihrer Antworten auf visuelle Fragen
VQA-E: Erklären, Erweitern und Verbessern Ihrer Antworten auf visuelle Fragen
Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo
Zusammenfassung
Die meisten bisherigen Arbeiten im Bereich des visuellen Fragenstellens und -Beantwortens (Visual Question Answering, VQA) konzentrieren sich auf die Steigerung der Genauigkeit vorhergesagter Antworten, während sie Erklärungen vernachlässigen. Wir argumentieren, dass die Erklärung einer Antwort mindestens ebenso wichtig – oder sogar noch wichtiger – ist als die Antwort selbst, da sie den Frage- und Antwortprozess verständlicher und nachvollziehbarer macht. Um dies zu erreichen, schlagen wir eine neue Aufgabenstellung vor: VQA-E (VQA mit Erklärung), bei der die computergestützten Modelle nicht nur eine Antwort, sondern auch eine Erklärung für diese Antwort generieren müssen. Zunächst erstellen wir eine neue Datensammlung und formulieren das VQA-E-Problem innerhalb eines Mehraufgaben-Lernrahmens. Unser VQA-E-Datensatz wird automatisch aus dem VQA v2-Datensatz abgeleitet, indem intelligente Ausnutzung der verfügbaren Bildunterschriften erfolgt. Wir haben eine Nutzerstudie durchgeführt, um die Qualität der von unserer Methode synthetisierten Erklärungen zu validieren. Quantitativ zeigen wir, dass die zusätzliche Supervision durch Erklärungen nicht nur aussagekräftige Textsätze zur Begründung der Antworten erzeugt, sondern auch die Leistungsfähigkeit der Antwortvorhersage verbessert. Unser Modell erreicht auf dem VQA v2-Datensatz deutlich bessere Ergebnisse als die derzeitigen State-of-the-Art-Methoden.