Feinabgestimmte späte Interaktion mehrerer Modalitäten für retrievalverstärktes visuelles Fragenbeantworten

Wissensbasierte visuelle Fragebeantwortung (KB-VQA) erfordert, dass VQA-Systeme Wissen aus externen Wissensbasen nutzen, um auf visuell verankerte Fragen zu antworten. Retrieval-Augmented Visual Question Answering (RA-VQA), ein leistungsstarker Ansatz zur Bewältigung von KB-VQA, ruft zunächst relevante Dokumente mittels Dense Passage Retrieval (DPR) ab und nutzt diese anschließend zur Beantwortung von Fragen. In dieser Arbeit wird Fine-grained Late-interaction Multi-modal Retrieval (FLMR) vorgestellt, das die Wissensretrieval-Leistung in RA-VQA erheblich verbessert. FLMR adressiert zwei zentrale Einschränkungen des Retriever-Moduls in RA-VQA: (1) die über Bild-zu-Text-Transformationen gewonnenen Bildrepräsentationen können unvollständig und ungenau sein, und (2) die Relevanzscores zwischen Fragen und Dokumenten werden mit eindimensionalen Embeddings berechnet, was auf feinere Relevanzunterschiede empfindlich reagieren kann. FLMR überwindet diese Einschränkungen, indem es Bildrepräsentationen erhält, die jene aus den Bild-zu-Text-Transformationen ergänzen, durch eine Vision-Modell-Alignment mit einem bestehenden textbasierten Retriever mittels eines einfachen Alignierungsnetzwerks. Zudem kodiert FLMR sowohl Bilder als auch Fragen mithilfe mehrdimensionaler Embeddings, um feinere Relevanzbeziehungen zwischen Fragen und Dokumenten zu erfassen. FLMR verbessert die PRRecall@5 des ursprünglichen RA-VQA-Retriever signifikant um etwa 8 %. Schließlich wurde RA-VQA mit zwei state-of-the-art großen multimodalen bzw. sprachbasierten Modellen ausgestattet, wodurch ein VQA-Score von etwa 61 % im OK-VQA-Datensatz erreicht wurde.