CRISP : Désapprentissage de concepts persistants par autoencodeurs creux

Alors que les grands modèles linguistiques (LLM) sont de plus en plus déployés dans des applications du monde réel, la nécessité de supprimer de manière sélective des connaissances indésirables tout en préservant l'utilité du modèle devient primordiale. Des travaux récents ont exploré l'utilisation d'autoencodeurs creux (SAE) pour effectuer des interventions précises sur des caractéristiques monosémiques. Toutefois, la plupart des méthodes basées sur les SAE opèrent au moment de l'inférence, sans engendrer de modifications durables sur les paramètres du modèle. Ces interventions peuvent être contournées ou annulées par des acteurs malveillants ayant accès aux paramètres. Nous introduisons CRISP, une méthode efficace en termes de paramètres pour une désapprentissage persistant de concepts à l’aide des SAE. CRISP identifie automatiquement les caractéristiques SAE pertinentes sur plusieurs couches et supprime leurs activations. Nous avons mené des expérimentations sur deux grands modèles linguistiques, et montré que notre méthode surpasser les approches antérieures sur des tâches critiques de sécurité dans le cadre du benchmark WMDP, en supprimant efficacement des connaissances nuisibles tout en préservant les capacités générales et spécifiques au domaine. Une analyse au niveau des caractéristiques révèle que CRISP parvient à une séparation sémantiquement cohérente entre les concepts cibles et les concepts bénéfiques, permettant une suppression précise des caractéristiques cibles.