Explication multimodale à faible exemple pour la réponse à des questions visuelles
Un objectif clé de l’intelligence artificielle explicable (XAI) consiste à concevoir des systèmes intelligents capables de raisonner et d’expliquer des données du monde réel afin de favoriser une prise de décision fiable. Des études récentes ont reconnu l’importance de fournir des explications conviviales et vérifiables pour promouvoir des systèmes de réponse à questions visuelles (VQA) fondés sur la confiance. Ce papier vise à faire progresser la VQA explicable sous deux angles : celui des données et celui des méthodes. Premièrement, nous proposons un nouveau jeu de données standardisé d’explications multimodales (SME) ainsi qu’une nouvelle tâche de VQA explicable avec peu d’exemples (FS-MEVQA), visant à générer des explications multimodales du processus de raisonnement sous-jacent permettant de répondre à des questions visuelles à partir d’un nombre restreint d’exemples d’entraînement. Notre jeu de données SME comprend 1 028 230 échantillons, chacun composé de questions, d’images, de réponses et d’explications multimodales, ce qui facilite la recherche tant sur la VQA explicable traditionnelle (MEVQA) que sur la FS-MEVQA. À notre connaissance, il s’agit du premier jeu de données à grande échelle intégrant des explications conjointes langage-vision basées sur l’anglais standard et des jetons supplémentaires pour le repérage visuel. Deuxièmement, nous proposons une méthode d’agent d’explication multimodale (MEAgent) sans entraînement, fondée sur un agent LLM doté d’outils multimodaux à monde ouvert, permettant d’inférer les réponses et de générer des explications multimodales pour des questions visuelles. Notre MEAgent est capable d’apprendre des explications multimodales à partir uniquement de N (=16) exemples d’entraînement et d’utiliser ses capacités à monde ouvert pour réaliser la FS-MEVQA sur des échantillons de test. Les résultats expérimentaux complets, évalués à l’aide de métriques de qualité linguistique, de détection visuelle et d’attribution visuelle sur notre jeu de données SME, démontrent l’efficacité supérieure de notre méthode pour la FS-MEVQA. Le code et les données sont disponibles à l’adresse suivante : https://github.com/LivXue/FS-MEVQA.