vor 6 Monaten

Zusammenfassung

Erklärende visuelle Fragenbeantwortung (Explanatory Visual Question Answering, EVQA) ist eine kürzlich vorgeschlagene multimodale Schlussfolgerungsaufgabe, die die Beantwortung visueller Fragen sowie die Generierung multimodaler Erklärungen für die Schlussfolgerungsprozesse erfordert. Im Gegensatz zur traditionellen visuellen Fragenbeantwortung (Visual Question Answering, VQA), die sich ausschließlich auf die Antwortgenerierung konzentriert, zielt EVQA darauf ab, benutzerfreundliche Erklärungen bereitzustellen, um die Erklärbarkeit und Glaubwürdigkeit von Schlussfolgerungsmodellen zu erhöhen. Allerdings prognostizieren bestehende EVQA-Methoden Antwort und Erklärung typischerweise getrennt voneinander, wodurch die kausale Korrelation zwischen ihnen ignoriert wird. Zudem werden die komplexen Beziehungen zwischen Frageworten, visuellen Regionen und Erklärungstoken vernachlässigt. Um diese Probleme zu lösen, schlagen wir ein Variational Causal Inference Network (VCIN) vor, das die kausale Korrelation zwischen vorhergesagten Antworten und Erklärungen herstellt und cross-modale Beziehungen erfasst, um rationale Erklärungen zu generieren. Zunächst nutzen wir ein vision- und sprachbasiert vortrainiertes Modell, um visuelle und fragebezogene Merkmale zu extrahieren. Anschließend stellen wir einen multimodalen Erklärungsgating-Transformer vor, der cross-modale Beziehungen aufbaut und rationale Erklärungen generiert. Schließlich führen wir eine variational kausale Inferenz ein, um die Zielkausalstruktur zu etablieren und die Antworten vorherzusagen. Umfassende Experimente belegen die Überlegenheit von VCIN gegenüber aktuellen state-of-the-art-Methoden in der EVQA.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Multimodal

Multimodale Darstellung

Multimodal

Aufgabe

Changsheng Xu Shengsheng Qian Dizhan Xue

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Multimodal

Multimodale Darstellung

Multimodal

Aufgabe

Changsheng Xu Shengsheng Qian Dizhan Xue

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Variational Causal Inference Network für erklärende visuelle Fragebeantwortung

Changsheng Xu Shengsheng Qian Dizhan Xue

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Variational Causal Inference Network für erklärende visuelle Fragebeantwortung

Changsheng Xu Shengsheng Qian Dizhan Xue

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Variational Causal Inference Network für erklärende visuelle Fragebeantwortung

Changsheng Xu Shengsheng Qian Dizhan Xue

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters