HyperAIHyperAI

Command Palette

Search for a command to run...

VLC-BERT: Visuelle Fragebeantwortung mit kontextualisiertem allgemeinen Wissen

Sahithya Ravi Aditya Chinchure Leonid Sigal Renjie Liao Vered Shwartz

Zusammenfassung

Es besteht ein zunehmendes Interesse an der Lösung von Aufgaben im Bereich des Visual Question Answering (VQA), bei denen das Modell über den in einem Bild enthaltenen Inhalt hinaus reasoning leisten muss. In dieser Arbeit konzentrieren wir uns auf Fragen, die ein commonsense-Reasoning erfordern. Im Gegensatz zu früheren Ansätzen, die Wissen aus statischen Wissensbasen einbetten, untersuchen wir die Integration kontextualisierter Kenntnisse mithilfe des Commonsense Transformer (COMET), eines bestehenden Wissensmodells, das auf menschlich kuratierten Wissensbasen trainiert wurde. Wir stellen eine Methode vor, um externe commonsense-Kenntnisse zu generieren, auszuwählen und zusammen mit visuellen und textuellen Hinweisen in einem neuen vortrainierten Vision-Language-Commonsense-Transformer-Modell, VLC-BERT, zu kodieren. Anhand unserer Evaluierung auf den wissensintensiven Datensätzen OK-VQA und A-OKVQA zeigen wir, dass VLC-BERT die Leistung bestehender Modelle übertrifft, die statische Wissensbasen nutzen. Darüber hinaus erläutern wir anhand einer detaillierten Analyse, welche Arten von Fragen von kontextualisierten commonsense-Kenntnissen aus COMET profitieren und welche nicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VLC-BERT: Visuelle Fragebeantwortung mit kontextualisiertem allgemeinen Wissen | Paper | HyperAI