Une nouvelle méthode permet aux modèles d’IA d’effacer définitivement des données privées et protégées sans retraitement complet
Une équipe de scientifiques informatiques de l’Université de Californie à Riverside (UC Riverside) a mis au point une méthode permettant d’effacer de manière fiable des données privées et protégées par le droit d’auteur des modèles d’intelligence artificielle, sans avoir besoin d’accéder aux données d’entraînement d’origine. Cette avancée, présentée en juillet à la conférence internationale sur l’apprentissage automatique (ICML) à Vancouver et publiée sur arXiv, répond à une préoccupation croissante : les modèles d’IA peuvent conserver des informations sensibles ou protégées indéfiniment, même après que leurs créateurs aient tenté de les supprimer ou de les protéger par des systèmes de paiement ou de mots de passe. L’approche, baptisée « unlearning certifié sans accès aux données sources », a été développée par Ümit Yiğit Başaran, doctorant en génie électrique et informatique à UCR, sous la direction des professeurs Amit Roy-Chowdhury et Başak Güler. Elle permet aux développeurs de supprimer des données ciblées tout en préservant la fonctionnalité du modèle. Contrairement aux méthodes traditionnelles qui exigent un re-entraînement complet à partir des données d’origine – une opération coûteuse et énergivore – cette technique utilise un jeu de données de substitution, ou « surrogat », qui reproduit statistiquement les caractéristiques des données à effacer. Le système ajuste les paramètres du modèle et ajoute un bruit aléatoire soigneusement calibré pour garantir que l’information ciblée ne puisse pas être récupérée, même par des attaques sophistiquées. Cette méthode s’appuie sur une approche d’optimisation existante qui approxime les modifications que subirait un modèle si celui-ci était re-entraîné, mais elle introduit une nouvelle mécanique de calibration du bruit pour compenser les écarts entre les données d’origine et les données de substitution. Les tests menés sur des jeux de données synthétiques et réels ont montré que cette méthode offre des garanties de confidentialité proches de celles obtenues par un re-entraînement complet, tout en nécessitant une puissance de calcul bien moindre. Bien que l’approche soit actuellement appliquée à des modèles plus simples encore largement utilisés, les chercheurs estiment qu’elle pourrait s’adapter à des systèmes complexes comme ChatGPT à l’avenir. Cette innovation est particulièrement pertinente face à des réglementations strictes comme le RGPD en Europe ou la loi californienne sur la confidentialité des consommateurs, ainsi qu’à des litiges comme celui intenté par le New York Times contre OpenAI et Microsoft pour l’utilisation non autorisée de ses articles dans les modèles GPT. Elle offre aux organisations médiatiques, aux établissements de santé ou à toute entité gérant des données sensibles un moyen concret de contrôler l’usage de leurs contenus dans les systèmes d’IA. « Les gens méritent de savoir que leurs données peuvent être effacées des modèles d’apprentissage automatique, pas seulement en théorie, mais de manière vérifiable et pratique », affirme Başak Güler. L’équipe prévoit maintenant d’adapter la méthode à des modèles plus complexes et de développer des outils accessibles pour les développeurs d’IA à travers le monde. Cette recherche, menée en collaboration avec Sk Miraj Ahmed du Laboratoire national Brookhaven, s’inscrit dans le cadre du RAISE (Riverside Artificial Intelligence Research and Education), co-dirigé par Roy-Chowdhury, et illustre une avancée majeure vers une IA plus responsable, éthique et conforme aux exigences réglementaires.
