HyperAIHyperAI

Command Palette

Search for a command to run...

Antworten-Mining aus einer Bildpool: Hin zum retrievalbasierten visuellen Fragen- und Antwortsystem

Abhirama Subramanyam Penamakuri Manish Gupta Mithun Das Gupta Anand Mishra

Zusammenfassung

Wir untersuchen das visuelle Fragenbeantworten in einem Szenario, bei dem die Antwort aus einer Menge relevanter und irrelevanter Bilder als Kontext extrahiert werden muss. Für ein solches Szenario muss ein Modell zunächst relevante Bilder aus der Pool-Gruppe abrufen und die Frage anhand dieser abgerufenen Bilder beantworten. Wir bezeichnen dieses Problem als retrieval-basiertes visuelles Fragenbeantworten (kurz: RETVQA). RETVQA unterscheidet sich deutlich und ist herausfordernder als das traditionell untersuchte visuelle Fragenbeantworten (VQA), bei dem eine gegebene Frage anhand eines einzelnen relevanten Bildes im Kontext beantwortet werden muss. Um die RETVQA-Aufgabe zu lösen, schlagen wir einen einheitlichen Multi-Image BART (MI-BART) vor, der eine Frage sowie abgerufene Bilder unter Verwendung unseres Relevanz-Encoders zur generativen Erstellung fließender, freiformiger Antworten nutzt. Darüber hinaus stellen wir die bislang größte Datensammlung in diesem Bereich vor, namens RETVQA, die folgende herausragende Eigenschaften aufweist: Mehrbild-Anforderungen und Retrieval-Anforderungen für VQA, metadata-unabhängige Fragen über eine heterogene Bildpool-Gruppe sowie die Erwartung einer Mischung aus klassifikationsorientierten und offenen, generativen Antworten. Unser vorgeschlagenes Framework erreicht auf der vorgeschlagenen Datensammlung RETVQA eine Genauigkeit von 76,5 % und eine Fließigkeit von 79,3 %. Zudem übertrifft es state-of-the-art-Methoden auf dem Bildsegment der öffentlich verfügbaren WebQA-Datensammlung um 4,9 % hinsichtlich der Genauigkeit und um 11,8 % hinsichtlich der Fließigkeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Antworten-Mining aus einer Bildpool: Hin zum retrievalbasierten visuellen Fragen- und Antwortsystem | Paper | HyperAI