VLC-BERT: Visuelle Fragebeantwortung mit kontextualisiertem allgemeinen Wissen

Es besteht ein zunehmendes Interesse an der Lösung von Aufgaben im Bereich des Visual Question Answering (VQA), bei denen das Modell über den in einem Bild enthaltenen Inhalt hinaus reasoning leisten muss. In dieser Arbeit konzentrieren wir uns auf Fragen, die ein commonsense-Reasoning erfordern. Im Gegensatz zu früheren Ansätzen, die Wissen aus statischen Wissensbasen einbetten, untersuchen wir die Integration kontextualisierter Kenntnisse mithilfe des Commonsense Transformer (COMET), eines bestehenden Wissensmodells, das auf menschlich kuratierten Wissensbasen trainiert wurde. Wir stellen eine Methode vor, um externe commonsense-Kenntnisse zu generieren, auszuwählen und zusammen mit visuellen und textuellen Hinweisen in einem neuen vortrainierten Vision-Language-Commonsense-Transformer-Modell, VLC-BERT, zu kodieren. Anhand unserer Evaluierung auf den wissensintensiven Datensätzen OK-VQA und A-OKVQA zeigen wir, dass VLC-BERT die Leistung bestehender Modelle übertrifft, die statische Wissensbasen nutzen. Darüber hinaus erläutern wir anhand einer detaillierten Analyse, welche Arten von Fragen von kontextualisierten commonsense-Kenntnissen aus COMET profitieren und welche nicht.