vor 17 Tagen

KVL-BERT: Wissensverstärkter visuell-sprachlicher BERT für visuelle Alltagslogik-Reasoning

Dandan Song, Siyi Ma, Zhanchen Sun, Sicheng Yang, Lejian Liao

Abstract

Schlussfolgern ist eine entscheidende Fähigkeit für ein vollständiges visuelles Verständnis. Um Maschinen mit kognitiven Fähigkeiten im Bereich visueller Wahrnehmung und Schlussfolgerung auszustatten, wurde die Aufgabe des visuellen Alltagswissens-Schlussfolgerns (Visual Commonsense Reasoning, VCR) eingeführt. Bei VCR muss eine Maschine eine anspruchsvolle Frage zu einem Bild korrekt beantworten und anschließend eine Begründung liefern, die ihre Antwort rechtfertigt. Methoden, die das leistungsstarke BERT-Modell als Grundbaustein zur Lernung gemeinsamer Repräsentationen aus Bildinhalten und natürlicher Sprache nutzen, haben bereits vielversprechende Fortschritte auf der VCR-Aufgabe gezeigt. Allerdings haben bisher keine der bestehenden Ansätze alltagsweltliches Wissen im Kontext des visuellen Alltagswissens-Schlussfolgerns genutzt, was wir für äußerst hilfreich in dieser Aufgabe halten. Mit Unterstützung alltagsweltlichen Wissens können komplexe Fragen auch beantwortet werden, selbst wenn die benötigten Informationen nicht explizit im Bild dargestellt sind, indem kognitives Schließen angewendet wird. Daher integrieren wir alltagsweltliches Wissen in das crossmodale BERT-Modell und stellen ein neuartiges, Wissen erweiterndes visuelles- und sprachliches BERT-Modell (KVL-BERT) vor. Neben visuellen und sprachlichen Eingaben wird externes alltagsweltliches Wissen, das aus ConceptNet extrahiert wurde, in die mehrschichtige Transformer-Architektur integriert. Um die strukturelle Information und semantische Repräsentation des ursprünglichen Satzes zu bewahren, schlagen wir die Verwendung von relativen Positionsembeddings und maskiertem Self-Attention vor, um die Beeinflussung zwischen dem eingefügten alltagsweltlichen Wissen und anderen unzusammenhängenden Komponenten der Eingabefolge zu verringern. Im Vergleich zu anderen auf spezifische Aufgaben zugeschnittenen Modellen und allgemeinen, aufgabenunabhängigen Vortrainingsmodellen übertrifft unser KVL-BERT diese deutlich.