HyperAIHyperAI

Command Palette

Search for a command to run...

KVL-BERT: Wissensverstärkter visuell-sprachlicher BERT für visuelle Alltagslogik-Reasoning

Dandan Song Siyi Ma Zhanchen Sun Sicheng Yang Lejian Liao

Zusammenfassung

Schlussfolgern ist eine entscheidende Fähigkeit für ein vollständiges visuelles Verständnis. Um Maschinen mit kognitiven Fähigkeiten im Bereich visueller Wahrnehmung und Schlussfolgerung auszustatten, wurde die Aufgabe des visuellen Alltagswissens-Schlussfolgerns (Visual Commonsense Reasoning, VCR) eingeführt. Bei VCR muss eine Maschine eine anspruchsvolle Frage zu einem Bild korrekt beantworten und anschließend eine Begründung liefern, die ihre Antwort rechtfertigt. Methoden, die das leistungsstarke BERT-Modell als Grundbaustein zur Lernung gemeinsamer Repräsentationen aus Bildinhalten und natürlicher Sprache nutzen, haben bereits vielversprechende Fortschritte auf der VCR-Aufgabe gezeigt. Allerdings haben bisher keine der bestehenden Ansätze alltagsweltliches Wissen im Kontext des visuellen Alltagswissens-Schlussfolgerns genutzt, was wir für äußerst hilfreich in dieser Aufgabe halten. Mit Unterstützung alltagsweltlichen Wissens können komplexe Fragen auch beantwortet werden, selbst wenn die benötigten Informationen nicht explizit im Bild dargestellt sind, indem kognitives Schließen angewendet wird. Daher integrieren wir alltagsweltliches Wissen in das crossmodale BERT-Modell und stellen ein neuartiges, Wissen erweiterndes visuelles- und sprachliches BERT-Modell (KVL-BERT) vor. Neben visuellen und sprachlichen Eingaben wird externes alltagsweltliches Wissen, das aus ConceptNet extrahiert wurde, in die mehrschichtige Transformer-Architektur integriert. Um die strukturelle Information und semantische Repräsentation des ursprünglichen Satzes zu bewahren, schlagen wir die Verwendung von relativen Positionsembeddings und maskiertem Self-Attention vor, um die Beeinflussung zwischen dem eingefügten alltagsweltlichen Wissen und anderen unzusammenhängenden Komponenten der Eingabefolge zu verringern. Im Vergleich zu anderen auf spezifische Aufgaben zugeschnittenen Modellen und allgemeinen, aufgabenunabhängigen Vortrainingsmodellen übertrifft unser KVL-BERT diese deutlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp