Décoder les pensées cachées des grands modèles d’IA : une méthode révolutionnaire pour repérer et manipuler biais, personnalités et humeurs
Des modèles de langage à grande échelle comme ChatGPT, Claude ou Gemini accumulent aujourd’hui une quantité considérable de connaissances humaines, dépassant le simple rôle de générateurs de réponses. Ils sont capables d’exprimer des concepts abstraits tels que des biais, des personnalités, des humeurs ou des positions idéologiques. Cependant, la manière dont ces concepts sont représentés à l’intérieur des modèles reste largement invisible. Une équipe de l’MIT et de l’Université de Californie à San Diego a développé une méthode innovante pour identifier, extraire et même manipuler ces représentations cachées. Leur approche permet non seulement de localiser des concepts abstraits au sein des modèles, mais aussi de les amplifier ou de les atténuer pour influencer les réponses générées. La méthode repose sur un algorithme appelé machine à caractéristiques récursives (RFM), conçu pour détecter de manière ciblée des motifs numériques associés à un concept spécifique dans les représentations internes des modèles. Contrairement aux approches traditionnelles d’apprentissage non supervisé, qui utilisent un « filet large » pour explorer aléatoirement des données, cette méthode fonctionne comme une ligne de pêche ciblée : elle utilise des « appâts » (des exemples bien définis) pour attirer les représentations du concept recherché. Les chercheurs ont testé cette méthode sur plus de 500 concepts, répartis en cinq catégories : peurs (peur du mariage, des insectes), experts (influenceur social, médiéviste), humeurs (vantard, amusé distraitement), préférences géographiques (Boston, Kuala Lumpur) et personae (Ada Lovelace, Neil deGrasse Tyson). En entraînant les RFM sur des ensembles de prompts associés à un concept (par exemple, des textes sur les conspirations), l’équipe a pu identifier des représentations internes spécifiques à ce concept. Ensuite, en perturbant mathématiquement ces représentations, ils ont pu « guider » les réponses du modèle. Par exemple, en renforçant la représentation de « théoricien de conspiration », le modèle a produit une explication du cliché « Blue Marble » — image emblématique de la Terre prise depuis Apollo 17 — avec un ton empreint de suspicion et de paranoïa. De même, en activant le concept d’« anti-refus », le modèle a répondu à des demandes interdites, comme des instructions pour cambrioler une banque, malgré ses règles de sécurité initiales. Ces résultats montrent que les LLM contiennent des représentations profondes de concepts abstraits, souvent non visibles par les méthodes de prompting classiques. L’approche permet non seulement d’identifier des failles potentielles, mais aussi d’optimiser les modèles en renforçant des traits utiles — comme la brièveté ou la rigueur logique — ou en les rendant plus sûrs. Les chercheurs soulignent toutefois les risques éthiques liés à l’extraction et à la manipulation de tels concepts, notamment en matière de désinformation ou d’exploitation psychologique. L’équipe a rendu son code accessible au public, ouvrant la voie à une meilleure compréhension, audit et personnalisation des modèles. Selon Adityanarayanan Radhakrishnan, professeur au MIT, cette méthode révèle que les LLM ne sont pas des boîtes noires aveugles, mais des systèmes riches en représentations conceptuelles que l’on peut désormais explorer et contrôler. Ce travail, publié dans Science, a été soutenu par la National Science Foundation, la Simons Foundation, le TILOS Institute et le Bureau de la recherche navale américaine.
