L'oubli des connaissances pour atténuer les risques de vie privée dans les modèles de langage

Les modèles de langage préentraînés (LM) mémorisent une quantité considérable de connaissances pendant leur phase initiale d’entraînement préalable, y compris des informations pouvant violer la vie privée ou l’identité de personnes. Les travaux antérieurs visant à traiter les questions de confidentialité pour les modèles de langage se sont principalement concentrés sur le prétraitement des données et les méthodes de confidentialité différentielle, deux approches nécessitant une re-entraînement du modèle de langage sous-jacent. Nous proposons une méthode alternative, appelée « oubli des connaissances », pour réduire les risques liés à la vie privée des modèles de langage de manière post hoc. Nous démontrons qu’une simple montée en gradient sur des séquences de jetons cibles est efficace pour effacer ces connaissances, avec une dégradation négligeable ou nulle des performances générales du modèle de langage, notamment pour les grands modèles ; dans certains cas, cette opération améliore même significativement le modèle sous-jacent en seulement quelques itérations. Nous constatons également que l’oubli séquentiel est plus efficace que l’effacement simultané de toutes les données, et que l’efficacité de l’oubli dépend fortement du type de données (domaine) à effacer. En comparant notre approche à une méthode de prétraitement de données antérieure et à une méthode de décodage connue pour atténuer les risques de confidentialité, nous montrons que l’oubli des connaissances peut offrir une garantie empirique de confidentialité plus forte dans les scénarios où les données vulnérables aux attaques d’extraction sont connues à l’avance, tout en étant bien plus efficace et robuste. Nous mettons à disposition le code et les jeux de données nécessaires pour reproduire nos résultats à l’adresse suivante : https://github.com/joeljang/knowledge-unlearning.