Retrieval-Augmented Visual Question Answering mit externem Wissen

Außenwissens-basiertes visuelles Fragen-Beantworten (OK-VQA) ist eine anspruchsvolle VQA-Aufgabe, die die Abrufung externer Wissensinhalte erfordert, um Fragen zu Bildern zu beantworten. Moderne OK-VQA-Systeme nutzen die dichte Absatzabfrage (Dense Passage Retrieval, DPR), um Dokumente aus externen Wissensbasen wie Wikipedia zu retrieven; dabei wird jedoch DPR separat von der Antwortgenerierung trainiert, was ein potenzielles Leistungslimit für das Gesamtsystem darstellt. Stattdessen schlagen wir ein gemeinsames Training vor, bei dem eine differenzierbare DPR mit der Antwortgenerierung integriert ist, sodass das System end-to-end trainiert werden kann. Unsere Experimente zeigen, dass unser Ansatz moderne OK-VQA-Systeme mit starkem DPR für die Abfrage übertrifft. Zudem führen wir neue diagnostische Metriken ein, um die Wechselwirkung zwischen Abfrage und Generierung zu analysieren. Die starke Abfragefähigkeit unseres Modells reduziert signifikant die Anzahl der benötigten abgerufenen Dokumente im Trainingsprozess und erbringt erhebliche Vorteile hinsichtlich der Antwortqualität und der zur Trainingszeit erforderlichen Rechenleistung.