il y a 6 mois

Résumé

La réponse à des questions visuelles explicatives (EVQA) est une tâche multimodale de raisonnement récemment proposée, qui consiste à répondre à des questions visuelles tout en générant des explications multimodales du processus de raisonnement. Contrairement à la réponse traditionnelle aux questions visuelles (VQA), qui se concentre uniquement sur la production de réponses, l’EVQA vise à fournir des explications conviviales afin d’améliorer l’explicabilité et la crédibilité des modèles de raisonnement. Toutefois, les méthodes actuelles d’EVQA prédisent généralement la réponse et l’explication de manière séparée, négligeant ainsi la corrélation causale entre ces deux composantes. De plus, elles ignorent les relations complexes existant entre les mots de la question, les régions visuelles et les jetons d’explication. Pour surmonter ces limites, nous proposons un réseau d’inférence causale variationnelle (VCIN), qui établit une corrélation causale entre les réponses et les explications prédites, et capture les relations transmodales afin de générer des explications rationnelles. Premièrement, nous utilisons un modèle préentraîné vision-langage pour extraire les caractéristiques visuelles et linguistiques. Ensuite, nous proposons un transformateur à porte d’explication multimodale, qui construit des relations transmodales et génère des explications cohérentes. Enfin, nous introduisons une inférence causale variationnelle pour établir une structure causale cible et prédire les réponses. Des expériences approfondies démontrent l’avantage du VCIN par rapport aux méthodes d’EVQA les plus avancées.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Multimodal

Représentation Multimodale

Multimodal

Tâche

Changsheng Xu Shengsheng Qian Dizhan Xue

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Multimodal

Représentation Multimodale

Multimodal

Tâche

Changsheng Xu Shengsheng Qian Dizhan Xue

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Réseau de inférence causale variationnelle pour la réponse explicative à des questions visuelles

Changsheng Xu Shengsheng Qian Dizhan Xue

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau de inférence causale variationnelle pour la réponse explicative à des questions visuelles

Changsheng Xu Shengsheng Qian Dizhan Xue

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau de inférence causale variationnelle pour la réponse explicative à des questions visuelles

Changsheng Xu Shengsheng Qian Dizhan Xue

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters