Transform-Retrieve-Generate: natürlichsprachzentrierte visuelle Fragebeantwortung mit externem Wissen
Transform-Retrieve-Generate: natürlichsprachzentrierte visuelle Fragebeantwortung mit externem Wissen
{Prem Natarajan Ying Nian Wu Aishwarya Reganti Govind Thattai Qing Ping Feng Gao}

Abstract
Außerwissens-Visual Question Answering (OK-VQA) erfordert von dem Agenten, das Bild zu verstehen, relevante Kenntnisse aus dem gesamten Web zu nutzen und alle Informationen zu verarbeiten, um die Frage zu beantworten. Die meisten bisherigen Ansätze behandeln das Problem, indem zunächst Bild und Frage im multimodalen Raum fusioniert werden – ein Ansatz, der für eine nachfolgende Integration einer riesigen Menge externer Wissensdaten wenig flexibel ist. In diesem Paper stellen wir eine alternative Paradigma für die OK-VQA-Aufgabe vor, das das Bild in reinen Text transformiert, sodass wir Wissenspassagen abrufen und generatives Frage-Antworten im natürlichen Sprachraum ermöglichen können. Dieses Paradigma nutzt die enorme Menge an riesigen Wissensbasen sowie die Vielfalt vortrainierter Sprachmodelle. Wir schlagen einen Transform-Retrieve-Generate-Framework (TRiG) vor, der problemlos mit unterschiedlichen Bild-zu-Text-Modellen und textbasierten Wissensbasen kombiniert werden kann. Experimentelle Ergebnisse zeigen, dass unser TRiG-Framework alle bisherigen state-of-the-art-Methoden auf überwachtem Lernansatz um mindestens 11,1 Prozentpunkte deutlich übertrifft.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| visual-question-answering-on-ok-vqa | TRiG (T5-Large) | Accuracy: 50.50 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.