HyperAIHyperAI
il y a 7 jours

Réseau de inférence causale variationnelle pour la réponse explicative à des questions visuelles

{Changsheng Xu, Shengsheng Qian, Dizhan Xue}
Réseau de inférence causale variationnelle pour la réponse explicative à des questions visuelles
Résumé

La réponse à des questions visuelles explicatives (EVQA) est une tâche multimodale de raisonnement récemment proposée, qui consiste à répondre à des questions visuelles tout en générant des explications multimodales du processus de raisonnement. Contrairement à la réponse traditionnelle aux questions visuelles (VQA), qui se concentre uniquement sur la production de réponses, l’EVQA vise à fournir des explications conviviales afin d’améliorer l’explicabilité et la crédibilité des modèles de raisonnement. Toutefois, les méthodes actuelles d’EVQA prédisent généralement la réponse et l’explication de manière séparée, négligeant ainsi la corrélation causale entre ces deux composantes. De plus, elles ignorent les relations complexes existant entre les mots de la question, les régions visuelles et les jetons d’explication. Pour surmonter ces limites, nous proposons un réseau d’inférence causale variationnelle (VCIN), qui établit une corrélation causale entre les réponses et les explications prédites, et capture les relations transmodales afin de générer des explications rationnelles. Premièrement, nous utilisons un modèle préentraîné vision-langage pour extraire les caractéristiques visuelles et linguistiques. Ensuite, nous proposons un transformateur à porte d’explication multimodale, qui construit des relations transmodales et génère des explications cohérentes. Enfin, nous introduisons une inférence causale variationnelle pour établir une structure causale cible et prédire les réponses. Des expériences approfondies démontrent l’avantage du VCIN par rapport aux méthodes d’EVQA les plus avancées.

Réseau de inférence causale variationnelle pour la réponse explicative à des questions visuelles | Articles de recherche récents | HyperAI