HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Variational Causal Inference Network für erklärende visuelle Fragebeantwortung

{Changsheng Xu Shengsheng Qian Dizhan Xue}

Variational Causal Inference Network für erklärende visuelle Fragebeantwortung

Abstract

Erklärende visuelle Fragenbeantwortung (Explanatory Visual Question Answering, EVQA) ist eine kürzlich vorgeschlagene multimodale Schlussfolgerungsaufgabe, die die Beantwortung visueller Fragen sowie die Generierung multimodaler Erklärungen für die Schlussfolgerungsprozesse erfordert. Im Gegensatz zur traditionellen visuellen Fragenbeantwortung (Visual Question Answering, VQA), die sich ausschließlich auf die Antwortgenerierung konzentriert, zielt EVQA darauf ab, benutzerfreundliche Erklärungen bereitzustellen, um die Erklärbarkeit und Glaubwürdigkeit von Schlussfolgerungsmodellen zu erhöhen. Allerdings prognostizieren bestehende EVQA-Methoden Antwort und Erklärung typischerweise getrennt voneinander, wodurch die kausale Korrelation zwischen ihnen ignoriert wird. Zudem werden die komplexen Beziehungen zwischen Frageworten, visuellen Regionen und Erklärungstoken vernachlässigt. Um diese Probleme zu lösen, schlagen wir ein Variational Causal Inference Network (VCIN) vor, das die kausale Korrelation zwischen vorhergesagten Antworten und Erklärungen herstellt und cross-modale Beziehungen erfasst, um rationale Erklärungen zu generieren. Zunächst nutzen wir ein vision- und sprachbasiert vortrainiertes Modell, um visuelle und fragebezogene Merkmale zu extrahieren. Anschließend stellen wir einen multimodalen Erklärungsgating-Transformer vor, der cross-modale Beziehungen aufbaut und rationale Erklärungen generiert. Schließlich führen wir eine variational kausale Inferenz ein, um die Zielkausalstruktur zu etablieren und die Antworten vorherzusagen. Umfassende Experimente belegen die Überlegenheit von VCIN gegenüber aktuellen state-of-the-art-Methoden in der EVQA.

Benchmarks

BenchmarkMethodikMetriken
explanatory-visual-question-answering-on-gqaVCIN
BLEU-4: 58.65
CIDEr: 519.23
GQA-test: 60.61
GQA-val: 81.80
Grounding: 77.33
METEOR: 41.57
ROUGE-L: 81.45
SPICE: 54.63
fs-mevqa-on-smeVCIN
#Learning Samples (N): 16
ACC: 17.77
BLEU-4: 9.17
CIDEr: 4.28
Detection: 0.28
METEOR: 19.82
ROUGE-L: 33.34
SPICE: 13.39

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Variational Causal Inference Network für erklärende visuelle Fragebeantwortung | Forschungsarbeiten | HyperAI