
L'efficacité et l'interprétabilité sont deux propriétés essentielles pour des systèmes d'IA fiables. La plupart des études récentes en raisonnement visuel se concentrent sur l'amélioration de la précision des réponses prédites, accordant moins d'attention à l'explication des raisonnements sous-jacents. En conséquence, elles profitent souvent de biais spurieux plutôt que de raisonner réellement sur les données visuelles et textuelles, et n'ont pas encore développé la capacité d'expliquer leur prise de décision en tenant compte des informations clés provenant des deux modalités. Cet article vise à combler ce fossé sous trois angles distincts : Premièrement, nous définissons un nouveau type d'explications multimodales qui expliquent les décisions en traversant progressivement le processus de raisonnement et en ancrant les mots-clés dans les images. Nous développons un programme fonctionnel pour exécuter séquentiellement différentes étapes de raisonnement et construisons un nouveau jeu de données comprenant 1 040 830 explications multimodales.Deuxièmement, nous identifions la nécessité cruciale de coupler étroitement les composants importants entre les modalités visuelle et textuelle pour expliquer les décisions. Nous proposons une nouvelle méthode de génération d'explications qui modélise explicitement la correspondance paire-à-paire entre les mots et les régions d'intérêt. Cette méthode améliore considérablement la capacité d'ancre visuelle, conduisant à une interprétabilité et une performance de raisonnement accrues.Enfin, grâce à nos nouvelles données et méthodes, nous effectuons des analyses approfondies pour étudier l'efficacité de nos explications dans différents contextes, y compris l'apprentissage multitâche et le transfert d'apprentissage. Notre code source et nos données sont disponibles à l'adresse suivante : https://github.com/szzexpoi/rex.