vor 6 Monaten

Zusammenfassung

Außenwissens-basiertes visuelles Fragen-Beantworten (OK-VQA) ist eine anspruchsvolle VQA-Aufgabe, die die Abrufung externer Wissensinhalte erfordert, um Fragen zu Bildern zu beantworten. Moderne OK-VQA-Systeme nutzen die dichte Absatzabfrage (Dense Passage Retrieval, DPR), um Dokumente aus externen Wissensbasen wie Wikipedia zu retrieven; dabei wird jedoch DPR separat von der Antwortgenerierung trainiert, was ein potenzielles Leistungslimit für das Gesamtsystem darstellt. Stattdessen schlagen wir ein gemeinsames Training vor, bei dem eine differenzierbare DPR mit der Antwortgenerierung integriert ist, sodass das System end-to-end trainiert werden kann. Unsere Experimente zeigen, dass unser Ansatz moderne OK-VQA-Systeme mit starkem DPR für die Abfrage übertrifft. Zudem führen wir neue diagnostische Metriken ein, um die Wechselwirkung zwischen Abfrage und Generierung zu analysieren. Die starke Abfragefähigkeit unseres Modells reduziert signifikant die Anzahl der benötigten abgerufenen Dokumente im Trainingsprozess und erbringt erhebliche Vorteile hinsichtlich der Antwortqualität und der zur Trainingszeit erforderlichen Rechenleistung.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Weizhe Lin Bill Byrne

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Weizhe Lin Bill Byrne

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Retrieval-Augmented Visual Question Answering mit externem Wissen | Paper | HyperAI

Command Palette

Retrieval-Augmented Visual Question Answering mit externem Wissen

Weizhe Lin Bill Byrne

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Retrieval-Augmented Visual Question Answering mit externem Wissen

Weizhe Lin Bill Byrne

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Retrieval-Augmented Visual Question Answering mit externem Wissen

Weizhe Lin Bill Byrne

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters