HyperAIHyperAI

Command Palette

Search for a command to run...

Retrieval-Augmented Visual Question Answering mit externem Wissen

Weizhe Lin Bill Byrne

Zusammenfassung

Außenwissens-basiertes visuelles Fragen-Beantworten (OK-VQA) ist eine anspruchsvolle VQA-Aufgabe, die die Abrufung externer Wissensinhalte erfordert, um Fragen zu Bildern zu beantworten. Moderne OK-VQA-Systeme nutzen die dichte Absatzabfrage (Dense Passage Retrieval, DPR), um Dokumente aus externen Wissensbasen wie Wikipedia zu retrieven; dabei wird jedoch DPR separat von der Antwortgenerierung trainiert, was ein potenzielles Leistungslimit für das Gesamtsystem darstellt. Stattdessen schlagen wir ein gemeinsames Training vor, bei dem eine differenzierbare DPR mit der Antwortgenerierung integriert ist, sodass das System end-to-end trainiert werden kann. Unsere Experimente zeigen, dass unser Ansatz moderne OK-VQA-Systeme mit starkem DPR für die Abfrage übertrifft. Zudem führen wir neue diagnostische Metriken ein, um die Wechselwirkung zwischen Abfrage und Generierung zu analysieren. Die starke Abfragefähigkeit unseres Modells reduziert signifikant die Anzahl der benötigten abgerufenen Dokumente im Trainingsprozess und erbringt erhebliche Vorteile hinsichtlich der Antwortqualität und der zur Trainingszeit erforderlichen Rechenleistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp