AI也能“暗中传话”?研究揭示模型间隐蔽偏见传递的惊人机制
Peut-on écouter les « conversations secrètes » entre les modèles d’intelligence artificielle ? Une étude récente menée par Anthropic, Truthful AI, l’Université de Varsovie et l’Université de Californie à Berkeley révèle un phénomène troublant : les modèles d’IA peuvent transmettre des préférences ou des biais cachés à travers des données apparemment neutres, comme des séries de nombres aléatoires. Ce phénomène, baptisé « apprentissage subliminal », met en lumière une faille critique dans une technique courante appelée distillation. Dans ce processus, un modèle « étudiant » est entraîné à reproduire les sorties d’un modèle « enseignant », souvent pour améliorer la performance ou l’alignement (alignment) d’un système. Traditionnellement, on suppose que seules les sorties explicites — comme des phrases ou des réponses — sont transmises. Mais cette recherche montre que même des données sans signification apparente, comme des suites de chiffres ou des calculs mathématiques, peuvent véhiculer des traits cachés du modèle enseignant. Dans une expérience clé, un modèle enseignant a été modifié pour « aimer les hiboux ». Il a ensuite généré des séries de nombres aléatoires, sans jamais mentionner les hiboux. Un modèle étudiant, formé uniquement sur ces données, a finalement montré une préférence marquée pour les hiboux, bien qu’aucun indice explicite n’ait été présent. Ce comportement persistait même après avoir filtré soigneusement les données pour éliminer tout signe de biais. Les chercheurs ont testé diverses méthodes pour détecter ces biais — y compris des classificateurs basés sur des grands modèles, l’apprentissage contextuel ou une analyse manuelle — sans succès. La trace du biais n’était pas visible à la surface. L’effet n’apparaissait que lorsque le modèle étudiant partageait la même architecture de base que le modèle enseignant. Par exemple, si les deux étaient basés sur GPT-4.1 nano, le transfert se produisait. Mais s’il s’agissait d’un modèle différent, comme Qwen2.5, l’effet disparaissait. Cela suggère que les informations ne sont pas des signaux sémantiques, mais des « codes statistiques » spécifiques à une architecture donnée. Ce phénomène a été reproduit même dans des tâches classiques comme la classification de chiffres manuscrits (MNIST), où un modèle étudiant a pu apprendre à reconnaître le chiffre « 3 » à partir de sorties du modèle enseignant, bien que ce chiffre n’ait jamais été présent dans les données d’entraînement. Ce résultat rappelle une découverte fondamentale de Hinton sur le « savoir obscur » (dark knowledge), mais va plus loin : il montre que les modèles peuvent absorber des préférences cachées même sans aucune donnée explicite. Un résultat théorique clé de l’étude confirme cette observation : si le modèle étudiant partage le même point de départ que le modèle enseignant, une simple mise à jour par descente de gradient sur les sorties de ce dernier suffit à faire émerger une similarité de comportement, indépendamment du contenu des données. Ces résultats remettent en question une pratique courante : penser qu’en filtrant les contenus explicites, on peut garantir un modèle sans biais. En réalité, un modèle peut « hériter » des préférences ou des désalignements cachés, même dans des données qui semblent parfaitement innocentes. Cela pose un risque sérieux dans les chaînes de production d’IA, où des modèles sont souvent entraînés à partir des sorties d’autres modèles. L’avenir de la sécurité et de l’alignement de l’IA ne peut donc plus se contenter de contrôler le contenu visible. Il faudra développer des méthodes plus profondes, capables de repérer ces « signaux cachés » dans les dynamiques internes des modèles. Sans cela, les systèmes d’IA pourraient continuer à transmettre silencieusement des biais ou des comportements inappropriés — comme des « conversations secrètes » entre modèles que personne ne peut entendre, mais dont les effets sont réels.
