Command Palette
Search for a command to run...
Antworten-Mining aus einer Bildpool: Hin zum retrievalbasierten visuellen Fragen- und Antwortsystem
Antworten-Mining aus einer Bildpool: Hin zum retrievalbasierten visuellen Fragen- und Antwortsystem
Abhirama Subramanyam Penamakuri Manish Gupta Mithun Das Gupta Anand Mishra
Zusammenfassung
Wir untersuchen das visuelle Fragenbeantworten in einem Szenario, bei dem die Antwort aus einer Menge relevanter und irrelevanter Bilder als Kontext extrahiert werden muss. Für ein solches Szenario muss ein Modell zunächst relevante Bilder aus der Pool-Gruppe abrufen und die Frage anhand dieser abgerufenen Bilder beantworten. Wir bezeichnen dieses Problem als retrieval-basiertes visuelles Fragenbeantworten (kurz: RETVQA). RETVQA unterscheidet sich deutlich und ist herausfordernder als das traditionell untersuchte visuelle Fragenbeantworten (VQA), bei dem eine gegebene Frage anhand eines einzelnen relevanten Bildes im Kontext beantwortet werden muss. Um die RETVQA-Aufgabe zu lösen, schlagen wir einen einheitlichen Multi-Image BART (MI-BART) vor, der eine Frage sowie abgerufene Bilder unter Verwendung unseres Relevanz-Encoders zur generativen Erstellung fließender, freiformiger Antworten nutzt. Darüber hinaus stellen wir die bislang größte Datensammlung in diesem Bereich vor, namens RETVQA, die folgende herausragende Eigenschaften aufweist: Mehrbild-Anforderungen und Retrieval-Anforderungen für VQA, metadata-unabhängige Fragen über eine heterogene Bildpool-Gruppe sowie die Erwartung einer Mischung aus klassifikationsorientierten und offenen, generativen Antworten. Unser vorgeschlagenes Framework erreicht auf der vorgeschlagenen Datensammlung RETVQA eine Genauigkeit von 76,5 % und eine Fließigkeit von 79,3 %. Zudem übertrifft es state-of-the-art-Methoden auf dem Bildsegment der öffentlich verfügbaren WebQA-Datensammlung um 4,9 % hinsichtlich der Genauigkeit und um 11,8 % hinsichtlich der Fließigkeit.