HyperAIHyperAI
vor 7 Tagen

Variational Causal Inference Network für erklärende visuelle Fragebeantwortung

{Changsheng Xu, Shengsheng Qian, Dizhan Xue}
Variational Causal Inference Network für erklärende visuelle Fragebeantwortung
Abstract

Erklärende visuelle Fragenbeantwortung (Explanatory Visual Question Answering, EVQA) ist eine kürzlich vorgeschlagene multimodale Schlussfolgerungsaufgabe, die die Beantwortung visueller Fragen sowie die Generierung multimodaler Erklärungen für die Schlussfolgerungsprozesse erfordert. Im Gegensatz zur traditionellen visuellen Fragenbeantwortung (Visual Question Answering, VQA), die sich ausschließlich auf die Antwortgenerierung konzentriert, zielt EVQA darauf ab, benutzerfreundliche Erklärungen bereitzustellen, um die Erklärbarkeit und Glaubwürdigkeit von Schlussfolgerungsmodellen zu erhöhen. Allerdings prognostizieren bestehende EVQA-Methoden Antwort und Erklärung typischerweise getrennt voneinander, wodurch die kausale Korrelation zwischen ihnen ignoriert wird. Zudem werden die komplexen Beziehungen zwischen Frageworten, visuellen Regionen und Erklärungstoken vernachlässigt. Um diese Probleme zu lösen, schlagen wir ein Variational Causal Inference Network (VCIN) vor, das die kausale Korrelation zwischen vorhergesagten Antworten und Erklärungen herstellt und cross-modale Beziehungen erfasst, um rationale Erklärungen zu generieren. Zunächst nutzen wir ein vision- und sprachbasiert vortrainiertes Modell, um visuelle und fragebezogene Merkmale zu extrahieren. Anschließend stellen wir einen multimodalen Erklärungsgating-Transformer vor, der cross-modale Beziehungen aufbaut und rationale Erklärungen generiert. Schließlich führen wir eine variational kausale Inferenz ein, um die Zielkausalstruktur zu etablieren und die Antworten vorherzusagen. Umfassende Experimente belegen die Überlegenheit von VCIN gegenüber aktuellen state-of-the-art-Methoden in der EVQA.

Variational Causal Inference Network für erklärende visuelle Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI