HyperAIHyperAI
vor 17 Tagen

KRISP: Integration von implizitem und symbolischem Wissen für open-domain Wissensbasierte VQA

Kenneth Marino, Xinlei Chen, Devi Parikh, Abhinav Gupta, Marcus Rohrbach
KRISP: Integration von implizitem und symbolischem Wissen für open-domain Wissensbasierte VQA
Abstract

Eine der anspruchsvollsten Fragearten im Bereich der visuellen Fragebeantwortung (VQA) entsteht dann, wenn zur Beantwortung einer Frage Wissen erforderlich ist, das nicht im Bild enthalten ist. In dieser Arbeit untersuchen wir den Fall des offenen Wissensbereichs (open-domain knowledge), bei dem das zur Beantwortung einer Frage benötigte Wissen weder während des Trainings noch zur Testzeit bereitgestellt oder annotiert wird. Wir nutzen zwei Arten von Wissensrepräsentationen und -schlussfolgerungen: Erstens implizites Wissen, das effektiv durch unsupervisiertes Sprachvortraining und supervisiertes Trainingsdatenmaterial mit transformerbasierten Modellen erlernt werden kann. Zweitens explizites, symbolisches Wissen, das in Wissensbasen kodiert ist. Unser Ansatz kombiniert beide Ansätze – er nutzt die starke implizite Schlussfolgerungsfähigkeit transformerbasierter Modelle zur Antwortvorhersage und integriert gleichzeitig symbolische Repräsentationen aus einem Wissensgraphen, wobei die explizite Semantik der symbolischen Darstellungen niemals verloren geht, wie es bei impliziten Embeddings der Fall sein könnte. Durch die Kombination verschiedener Wissensquellen decken wir die große Vielfalt an Wissen ab, die zur Lösung wissensbasiertes VQA- Fragen erforderlich ist. Wir zeigen, dass unser Ansatz, KRISP (Knowledge Reasoning with Implicit and Symbolic rePresentations), auf OK-VQA, dem größten verfügbaren Datensatz für wissensbasierte VQA im offenen Wissensbereich, signifikant besser abschneidet als aktuelle State-of-the-Art-Methoden. Durch umfassende Ablationsstudien zeigen wir, dass zwar unser Modell erfolgreich implizites Wissensschlussfolgern nutzt, der symbolische Antwortmodul – der die Verbindung zwischen dem Wissensgraphen und dem Antwortvokabular explizit herstellt – entscheidend für die Leistungsfähigkeit unseres Ansatzes ist und sich auch auf seltene Antworten verallgemeinern lässt.