IA médicale : les risques de memorisation des données patients mis en lumière par des chercheurs du MIT
Face à l’essor des modèles d’intelligence artificielle (IA) en santé, des chercheurs du MIT, menés par Sana Tonekaboni, postdoctorante au Eric et Wendy Schmidt Center au Broad Institute, ont mené une étude préoccupante sur le risque de « mémoire » des modèles fondamentaux entraînés sur des dossiers médicaux électroniques (DME) dépersonnalisés. Bien que ces données soient supposées anonymisées, leur travail, présenté à la conférence NeurIPS 2025, révèle que ces modèles peuvent parfois « mémoriser » des informations spécifiques à un patient, ce qui constitue une menace sérieuse pour la confidentialité médicale. Ce phénomène, connu sous le nom de data leakage, survient lorsque l’IA utilise une donnée unique du jeu d’entraînement pour générer une réponse, au lieu de généraliser à partir de multiples cas — une situation particulièrement problématique dans un contexte médical où la vie privée est au cœur de l’éthique professionnelle, rappelée par l’Hippocrate. Marzyeh Ghassemi, professeure adjointe au MIT et chef du groupe Healthy ML au Jameel Clinic pour l’apprentissage automatique en santé, a dirigé cette recherche visant à évaluer concrètement les risques liés à ces fuites. Les chercheurs ont conçu une série de tests structurés pour distinguer entre la généralisation (comportement souhaitable) et la mémoire patient spécifique (risque d’atteinte à la vie privée). Leur approche met l’accent sur la réalité des attaques : si un pirate doit connaître des détails précis comme la date et les résultats de douze analyses pour extraire des informations, le risque est faible, car il aurait déjà accès à ces données. En revanche, si un modèle peut révéler des informations sensibles comme un diagnostic de VIH ou une dépendance à l’alcool à partir d’un simple prompt, le danger est bien réel. L’étude montre que plus l’attaquant dispose d’informations préalables sur un patient, plus la probabilité de fuite augmente. Les cas les plus vulnérables concernent les patients ayant des conditions rares, dont la singularité facilite l’identification même dans des données dépersonnalisées. Les auteurs soulignent que certaines fuites sont plus préjudiciables que d’autres : révéler l’âge ou le sexe est moins grave que divulguer des données médicales hautement sensibles. Cette hiérarchisation est essentielle pour évaluer le risque réel. Les chercheurs prévoient d’étendre leur travail à une approche interdisciplinaire, en intégrant des cliniciens, des experts en vie privée et des juristes. Leur objectif est de développer des protocoles d’évaluation standardisés avant le déploiement de modèles d’IA en santé. Ce travail est soutenu par plusieurs institutions, dont le NSF, la fondation Gordon et Betty Moore, Google Research, et le programme AI2050 de Schmidt Sciences. En somme, cette recherche rappelle que la confidentialité médicale n’est pas une formalité, mais une nécessité fondamentale — et que l’IA, aussi puissante soit-elle, ne doit jamais compromettre ce pilier de la confiance en soins.
