Le MIT publie de nouveaux résultats pour améliorer la capacité d'explication des prédictions des modèles d'intelligence artificielle
Des chercheurs du MIT et de l'Université polytechnique de Milan ont développé une nouvelle méthode pour améliorer la capacité des modèles d'intelligence artificielle à expliquer leurs prédictions, un enjeu crucial pour des domaines à haut risque comme le diagnostic médical. Dans ces contextes, la confiance des utilisateurs repose sur leur compréhension du raisonnement de l'IA. L'équipe, dirigée par Antonio De Santis, a créé un système capable d'extraire et de traduire en langage clair les connaissances internes d'un modèle existant, offrant ainsi des explications plus précises que les approches classiques. Les modèles d'« étouffement conceptuel » (Concept Bottleneck Models ou CBM) visent à rendre l'IA explicable en forçant le réseau de neurones à passer par une étape intermédiaire où il identifie des concepts compréhensibles par l'humain avant de produire une décision. Par exemple, un modèle d'identification de maladies de la peau pourrait d'abord repérer des « taches brunes groupées » avant de conclure à un mélanome. Cependant, ces méthodes traditionnelles dépendent souvent de concepts définis à l'avance par des experts humains, qui peuvent être inadéquats ou trop vagues pour une tâche spécifique, réduisant ainsi la précision. De plus, les modèles peuvent ignorer ces contraintes et utiliser des informations cachées, un phénomène connu sous le nom de fuite d'information. La nouvelle approche rompt avec cette limitation en récupérant les concepts que le modèle a déjà appris au cours de son entraînement sur de vastes ensembles de données. Le processus utilise deux modules spécialisés : un autoencodeur parcimonieux qui identifie les caractéristiques les plus pertinentes et les reconstruit en un ensemble restreint de concepts, suivi d'un grand modèle de langage multimodal qui traduit ces concepts en langage naturel et les applique aux images du jeu de données. Ce module enrichi est ensuite intégré au modèle cible, l'obligeant à fonder ses prédictions uniquement sur ces concepts extraits et vérifiés. Pour garantir la clarté, les chercheurs ont limité le nombre de concepts utilisés à cinq par prédiction, forçant ainsi le modèle à sélectionner les éléments les plus pertinents. Dans des tests comparatifs sur des tâches variées, telles que l'identification d'espèces d'oiseaux et la détection de lésions cutanées, cette méthode a dépassé les modèles CBM existants en termes de précision tout en fournissant des explications plus fidèles. Bien que les modèles « boîte noire » non interprétables restent encore plus performants en pure précision, cette avancée marque un pas significatif vers une IA plus transparente et accountable. L'équipe prévoit d'élargir cette approche à l'avenir en utilisant des modèles de langage multimodaux plus puissants et en étendant les ensembles de données d'annotation. Ils comptent également explorer des solutions pour éliminer définitivement la fuite d'information, potentiellement en ajoutant plusieurs modules de conception conceptuelle. Cette recherche, publiée à la conférence internationale sur les représentations d'apprentissage, ouvre la voie à une intelligence artificielle qui ne se contente pas de prédire, mais qui sait expliquer son raisonnement de manière naturelle et structurée, facilitant ainsi son intégration dans des systèmes complexes nécessitant une forte transparence.
