HyperAIHyperAI
vor 2 Monaten

VQA-E: Erklären, Ausbauen und Verbessern Ihrer Antworten auf visuelle Fragen

Li, Qing ; Tao, Qingyi ; Joty, Shafiq ; Cai, Jianfei ; Luo, Jiebo
VQA-E: Erklären, Ausbauen und Verbessern Ihrer Antworten auf visuelle Fragen
Abstract

Die meisten existierenden Arbeiten im Bereich der visuellen Fragebeantwortung (VQA) konzentrieren sich auf die Verbesserung der Genauigkeit der vorhergesagten Antworten, während sie Erklärungen vernachlässigen. Wir argumentieren, dass die Erklärung für eine Antwort mindestens gleichwertig oder sogar wichtiger ist als die Antwort selbst, da sie den Frage- und Antwortprozess verständlicher und nachvollziehbarer macht. Zu diesem Zweck schlagen wir eine neue Aufgabe VQA-E (VQA mit Erklärung) vor, bei der die berechnenden Modelle verpflichtet sind, eine Erklärung zusammen mit der vorhergesagten Antwort zu generieren. Zunächst erstellen wir einen neuen Datensatz und rahmen dann das VQA-E-Problem in einer Multi-Task-Lernarchitektur ein. Unser VQA-E-Datensatz wird automatisch aus dem VQA v2-Datensatz abgeleitet, indem wir die vorhandenen Bildunterschriften intelligent nutzen. Wir haben eine Nutzerstudie durchgeführt, um die Qualität der durch unsere Methode synthetisierten Erklärungen zu validieren. Quantitativ zeigen wir, dass die zusätzliche Überwachung durch Erklärungen nicht nur sinnvolle textuelle Sätze zur Begründung der Antworten erzeugen kann, sondern auch die Leistungsfähigkeit der Antwortvorhersage verbessert. Unser Modell übertrifft die bislang besten Methoden deutlich im VQA v2-Datensatz.