Une méthode plus intelligente pour débiaiser les modèles de vision IA
Des chercheurs de l'Institut de technologie du Massachusetts (MIT), de l'Institut polytechnique du Worcester et de Google proposent une nouvelle méthode pour corriger les biais dans les modèles de vision par ordinateur, une avancée cruciale pour des applications sensibles comme le diagnostic médical. Les modèles d'intelligence artificielle, notamment ceux utilisés par les dermatologues pour identifier les lésions cutanées cancéreuses, souffrent souvent de biais liés aux données d'entraînement ou à l'architecture même du modèle. Un tel biais peut entraîner des échecs critiques lorsqu'il s'agit d'évaluer la peau de patients issus de minorités ethniques. Une approche de post-traitement courante, appelée « débiaisage par projection », consiste à éliminer les informations biaisées d'un espace de représentation. Toutefois, cette méthode a été décrite comme un « jeu du Whac-A-Mole », un dilemme empirique où l'élimination d'un biais en entraîne inévitablement d'autres ou en amplifie certains. Walter Gerych, premier auteur de l'étude et actuellement professeur assistant à l'Institut polytechnique du Worcester, explique que cette projection modifie involontairement toutes les autres relations apprises par le modèle. Par exemple, éliminer un biais racial dans un système de recherche d'images de personnel médical pourrait involontairement accentuer un biais de genre, créant ainsi de nouveaux problèmes de sécurité et d'équité. La solution proposée dans cet article, accepté pour la conférence 2026 sur les représentations d'apprentissage, est appelée « Débiaisage rotationnel pondéré » (WRING). Contrairement à la projection qui supprime l'information, WRING déplace certaines coordonnées de l'espace multidimensionnel du modèle. Ces coordonnées, responsables des biais, sont réorientées vers un angle où le modèle ne peut plus distinguer les différents groupes au sein d'un concept donné. Cette technique permet de réduire la capacité du modèle à discriminer tout en préservant l'intégrité de ses autres apprentissages et relations sémantiques. WRING est conçu comme une méthode de post-traitement, ce qui signifie qu'elle peut être appliquée sur le champ à des modèles de vision et de langage (VLM) pré-entraînés, tels que OpenCLIP, sans nécessiter de nouveau processus d'apprentissage. Cela est essentiel pour l'industrie, car le réentraînement de grands modèles représente une dépense de temps et de ressources considérable. Gerych souligne que WRING est très efficace, peu invasif et ne nécessite pas de recommencer l'entraînement depuis le début. Les résultats des chercheurs montrent que WRING réduit significativement le biais ciblé sans en augmenter dans d'autres domaines. Toutefois, la méthode est pour l'instant limitée aux modèles de pré-entraînement contrastif langage-image (CLIP), qui relient des images à des descriptions textuelles pour la recherche ou le classement. Les auteurs envisagent désormais d'étendre cette approche aux modèles de langage génératifs de type ChatGPT. L'équipe de recherche, incluant les professeurs Justin Solomon et Marzyeh Ghassemi du MIT, ainsi que d'autres chercheurs de Google et du MIT, espère ainsi améliorer la fiabilité et l'équité de l'intelligence artificielle dans des domaines à haut risque. Ce travail a été soutenu par plusieurs bourses prestigieuses, dont celles de la National Science Foundation et de la fondation Gordon and Betty Moore.
