HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Réseau de inférence causale variationnelle pour la réponse explicative à des questions visuelles

{Changsheng Xu Shengsheng Qian Dizhan Xue}

Réseau de inférence causale variationnelle pour la réponse explicative à des questions visuelles

Résumé

La réponse à des questions visuelles explicatives (EVQA) est une tâche multimodale de raisonnement récemment proposée, qui consiste à répondre à des questions visuelles tout en générant des explications multimodales du processus de raisonnement. Contrairement à la réponse traditionnelle aux questions visuelles (VQA), qui se concentre uniquement sur la production de réponses, l’EVQA vise à fournir des explications conviviales afin d’améliorer l’explicabilité et la crédibilité des modèles de raisonnement. Toutefois, les méthodes actuelles d’EVQA prédisent généralement la réponse et l’explication de manière séparée, négligeant ainsi la corrélation causale entre ces deux composantes. De plus, elles ignorent les relations complexes existant entre les mots de la question, les régions visuelles et les jetons d’explication. Pour surmonter ces limites, nous proposons un réseau d’inférence causale variationnelle (VCIN), qui établit une corrélation causale entre les réponses et les explications prédites, et capture les relations transmodales afin de générer des explications rationnelles. Premièrement, nous utilisons un modèle préentraîné vision-langage pour extraire les caractéristiques visuelles et linguistiques. Ensuite, nous proposons un transformateur à porte d’explication multimodale, qui construit des relations transmodales et génère des explications cohérentes. Enfin, nous introduisons une inférence causale variationnelle pour établir une structure causale cible et prédire les réponses. Des expériences approfondies démontrent l’avantage du VCIN par rapport aux méthodes d’EVQA les plus avancées.

Benchmarks

BenchmarkMéthodologieMétriques
explanatory-visual-question-answering-on-gqaVCIN
BLEU-4: 58.65
CIDEr: 519.23
GQA-test: 60.61
GQA-val: 81.80
Grounding: 77.33
METEOR: 41.57
ROUGE-L: 81.45
SPICE: 54.63
fs-mevqa-on-smeVCIN
#Learning Samples (N): 16
ACC: 17.77
BLEU-4: 9.17
CIDEr: 4.28
Detection: 0.28
METEOR: 19.82
ROUGE-L: 33.34
SPICE: 13.39

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseau de inférence causale variationnelle pour la réponse explicative à des questions visuelles | Articles de recherche | HyperAI