vor 6 Monaten

Zusammenfassung

Außerwissens-Visual Question Answering (OK-VQA) erfordert von dem Agenten, das Bild zu verstehen, relevante Kenntnisse aus dem gesamten Web zu nutzen und alle Informationen zu verarbeiten, um die Frage zu beantworten. Die meisten bisherigen Ansätze behandeln das Problem, indem zunächst Bild und Frage im multimodalen Raum fusioniert werden – ein Ansatz, der für eine nachfolgende Integration einer riesigen Menge externer Wissensdaten wenig flexibel ist. In diesem Paper stellen wir eine alternative Paradigma für die OK-VQA-Aufgabe vor, das das Bild in reinen Text transformiert, sodass wir Wissenspassagen abrufen und generatives Frage-Antworten im natürlichen Sprachraum ermöglichen können. Dieses Paradigma nutzt die enorme Menge an riesigen Wissensbasen sowie die Vielfalt vortrainierter Sprachmodelle. Wir schlagen einen Transform-Retrieve-Generate-Framework (TRiG) vor, der problemlos mit unterschiedlichen Bild-zu-Text-Modellen und textbasierten Wissensbasen kombiniert werden kann. Experimentelle Ergebnisse zeigen, dass unser TRiG-Framework alle bisherigen state-of-the-art-Methoden auf überwachtem Lernansatz um mindestens 11,1 Prozentpunkte deutlich übertrifft.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Natürliche Sprachverarbeitung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Prem Natarajan Ying Nian Wu Aishwarya Reganti Govind Thattai Qing Ping Feng Gao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Natürliche Sprachverarbeitung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Prem Natarajan Ying Nian Wu Aishwarya Reganti Govind Thattai Qing Ping Feng Gao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Transform-Retrieve-Generate: natürlichsprachzentrierte visuelle Fragebeantwortung mit externem Wissen

Prem Natarajan Ying Nian Wu Aishwarya Reganti Govind Thattai Qing Ping Feng Gao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Transform-Retrieve-Generate: natürlichsprachzentrierte visuelle Fragebeantwortung mit externem Wissen

Prem Natarajan Ying Nian Wu Aishwarya Reganti Govind Thattai Qing Ping Feng Gao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Transform-Retrieve-Generate: natürlichsprachzentrierte visuelle Fragebeantwortung mit externem Wissen

Prem Natarajan Ying Nian Wu Aishwarya Reganti Govind Thattai Qing Ping Feng Gao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters