HyperAIHyperAI

Command Palette

Search for a command to run...

Feinabgestimmte späte Interaktion mehrerer Modalitäten für retrievalverstärktes visuelles Fragenbeantworten

Weizhe Lin Jinghong Chen Jingbiao Mei Alexandru Coca Bill Byrne

Zusammenfassung

Wissensbasierte visuelle Fragebeantwortung (KB-VQA) erfordert, dass VQA-Systeme Wissen aus externen Wissensbasen nutzen, um auf visuell verankerte Fragen zu antworten. Retrieval-Augmented Visual Question Answering (RA-VQA), ein leistungsstarker Ansatz zur Bewältigung von KB-VQA, ruft zunächst relevante Dokumente mittels Dense Passage Retrieval (DPR) ab und nutzt diese anschließend zur Beantwortung von Fragen. In dieser Arbeit wird Fine-grained Late-interaction Multi-modal Retrieval (FLMR) vorgestellt, das die Wissensretrieval-Leistung in RA-VQA erheblich verbessert. FLMR adressiert zwei zentrale Einschränkungen des Retriever-Moduls in RA-VQA: (1) die über Bild-zu-Text-Transformationen gewonnenen Bildrepräsentationen können unvollständig und ungenau sein, und (2) die Relevanzscores zwischen Fragen und Dokumenten werden mit eindimensionalen Embeddings berechnet, was auf feinere Relevanzunterschiede empfindlich reagieren kann. FLMR überwindet diese Einschränkungen, indem es Bildrepräsentationen erhält, die jene aus den Bild-zu-Text-Transformationen ergänzen, durch eine Vision-Modell-Alignment mit einem bestehenden textbasierten Retriever mittels eines einfachen Alignierungsnetzwerks. Zudem kodiert FLMR sowohl Bilder als auch Fragen mithilfe mehrdimensionaler Embeddings, um feinere Relevanzbeziehungen zwischen Fragen und Dokumenten zu erfassen. FLMR verbessert die PRRecall@5 des ursprünglichen RA-VQA-Retriever signifikant um etwa 8 %. Schließlich wurde RA-VQA mit zwei state-of-the-art großen multimodalen bzw. sprachbasierten Modellen ausgestattet, wodurch ein VQA-Score von etwa 61 % im OK-VQA-Datensatz erreicht wurde.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Feinabgestimmte späte Interaktion mehrerer Modalitäten für retrievalverstärktes visuelles Fragenbeantworten | Paper | HyperAI