HyperAIHyperAI
vor 17 Tagen

LaKo: Wissensgetriebene visuelle Fragebeantwortung durch späte Wissens-zu-Text-Injektion

Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Yin Fang, Jeff Pan, Ningyu Zhang, Wen Zhang
LaKo: Wissensgetriebene visuelle Fragebeantwortung durch späte Wissens-zu-Text-Injektion
Abstract

Visual Question Answering (VQA) erfordert oft ein Verständnis visueller Konzepte sowie sprachlicher Semantik, was auf externes Wissen angewiesen ist. Die meisten bestehenden Ansätze nutzen vortrainierte Sprachmodelle oder/und unstrukturierte Textdaten, wobei das in diesen Ressourcen enthaltene Wissen jedoch häufig unvollständig und verrauscht ist. Andere Methoden bevorzugen hingegen die Nutzung von Wissensgraphen (Knowledge Graphs, KGs), die über eine intensive strukturierte Wissensbasis verfügen, doch die Forschung auf diesem Gebiet bleibt noch weitgehend vorläufig. In diesem Paper stellen wir LaKo vor, eine wissensgetriebene VQA-Methode basierend auf einer späten Wissens-zu-Text-Injektion. Um ein externer Wissensgraph effektiv zu integrieren, wandeln wir Tripel in textuelle Formate um und schlagen eine späte Injektionsmechanik zur Wissensfusion vor. Schließlich formulieren wir das VQA als Aufgabe der Textgenerierung unter Verwendung eines effektiven Encoder-Decoder-Paradigmas, das auf dem OKVQA-Datensatz Ergebnisse auf State-of-the-Art-Niveau erzielt.