HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 4 Monaten

Transform-Retrieve-Generate: natürlichsprachzentrierte visuelle Fragebeantwortung mit externem Wissen

{Prem Natarajan Ying Nian Wu Aishwarya Reganti Govind Thattai Qing Ping Feng Gao}

Transform-Retrieve-Generate: natürlichsprachzentrierte visuelle Fragebeantwortung mit externem Wissen

Abstract

Außerwissens-Visual Question Answering (OK-VQA) erfordert von dem Agenten, das Bild zu verstehen, relevante Kenntnisse aus dem gesamten Web zu nutzen und alle Informationen zu verarbeiten, um die Frage zu beantworten. Die meisten bisherigen Ansätze behandeln das Problem, indem zunächst Bild und Frage im multimodalen Raum fusioniert werden – ein Ansatz, der für eine nachfolgende Integration einer riesigen Menge externer Wissensdaten wenig flexibel ist. In diesem Paper stellen wir eine alternative Paradigma für die OK-VQA-Aufgabe vor, das das Bild in reinen Text transformiert, sodass wir Wissenspassagen abrufen und generatives Frage-Antworten im natürlichen Sprachraum ermöglichen können. Dieses Paradigma nutzt die enorme Menge an riesigen Wissensbasen sowie die Vielfalt vortrainierter Sprachmodelle. Wir schlagen einen Transform-Retrieve-Generate-Framework (TRiG) vor, der problemlos mit unterschiedlichen Bild-zu-Text-Modellen und textbasierten Wissensbasen kombiniert werden kann. Experimentelle Ergebnisse zeigen, dass unser TRiG-Framework alle bisherigen state-of-the-art-Methoden auf überwachtem Lernansatz um mindestens 11,1 Prozentpunkte deutlich übertrifft.

Benchmarks

BenchmarkMethodikMetriken
visual-question-answering-on-ok-vqaTRiG (T5-Large)
Accuracy: 50.50

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Transform-Retrieve-Generate: natürlichsprachzentrierte visuelle Fragebeantwortung mit externem Wissen | Forschungsarbeiten | HyperAI