HyperAIHyperAI

Command Palette

Search for a command to run...

LaKo: Wissensgetriebene visuelle Fragebeantwortung durch späte Wissens-zu-Text-Injektion

Zhuo Chen Yufeng Huang Jiaoyan Chen Yuxia Geng Yin Fang Jeff Pan Ningyu Zhang Wen Zhang

Zusammenfassung

Visual Question Answering (VQA) erfordert oft ein Verständnis visueller Konzepte sowie sprachlicher Semantik, was auf externes Wissen angewiesen ist. Die meisten bestehenden Ansätze nutzen vortrainierte Sprachmodelle oder/und unstrukturierte Textdaten, wobei das in diesen Ressourcen enthaltene Wissen jedoch häufig unvollständig und verrauscht ist. Andere Methoden bevorzugen hingegen die Nutzung von Wissensgraphen (Knowledge Graphs, KGs), die über eine intensive strukturierte Wissensbasis verfügen, doch die Forschung auf diesem Gebiet bleibt noch weitgehend vorläufig. In diesem Paper stellen wir LaKo vor, eine wissensgetriebene VQA-Methode basierend auf einer späten Wissens-zu-Text-Injektion. Um ein externer Wissensgraph effektiv zu integrieren, wandeln wir Tripel in textuelle Formate um und schlagen eine späte Injektionsmechanik zur Wissensfusion vor. Schließlich formulieren wir das VQA als Aufgabe der Textgenerierung unter Verwendung eines effektiven Encoder-Decoder-Paradigmas, das auf dem OKVQA-Datensatz Ergebnisse auf State-of-the-Art-Niveau erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LaKo: Wissensgetriebene visuelle Fragebeantwortung durch späte Wissens-zu-Text-Injektion | Paper | HyperAI