Gemma révèle un circuit de rappel factuel en trois phases
Une récente étude d'interprétabilité mécanique, baptisée BizzaroWorld, a cartographié la façon dont les modèles de langage Gemma-2B et Gemma-12B-IT stockent et restituent leurs connaissances factuelles. En analysant soixante paires de prompts à travers vingt catégories de savoirs, les chercheurs ont employé la technique de patchage d'activation pour isoler le circuit neuronal responsable de la récupération d'informations. Les résultats révèlent un circuit cohérent en trois phases. La première phase, dite de stockage, se déroule dans les couches précoces du réseau. Les faits y sont encodés sous forme de directions dans le flux résiduel, un composant qui exerce une influence causale dominante, bien supérieure à celle des têtes d'attention ou des sous-couches de réseaux de neurones. La seconde phase, consacrée au routage, assure le déplacement du signal du jeton initial vers la position de prédiction finale. Cette étape repose sur une coopération distribuée de multiples têtes d'attention, sans qu'aucune d'elles ne prenne le contrôle exclusif. Enfin, la troisième phase, appelée lecture, intervient dans les couches tardives. Le modèle n'y calcule rien de nouveau ; il se contente de restituer une réponse déjà encodée, fonctionnant comme un simple relais. Cette architecture de trois étapes se confirme à l'échelle. Le passage du modèle Gemma-2B au Gemma-12B-IT maintient strictement le même schéma fonctionnel, avec un décalage proportionnel des couches concernées. Le routage demeure largement distribué dans le plus grand modèle, tandis que le flux résiduel conserve son rôle central. Certaines particularités techniques ont émergé, notamment des divergences liées aux tokenizers qui ont entraîné des variations mineures dans le traitement des entrées. Cette découverte souligne la nécessité de valider systématiquement les jeux de données à travers chaque architecture testée afin d'éviter les biais de formatage. Cette cartographie offre une base solide pour le débogage ciblé des grands modèles de langage. Comprendre précisément où et comment les connaissances sont stockées et transmises permet de concevoir des interventions plus efficaces face aux défaillances ou aux hallucinations. Les travaux futurs viseront à affiner cette analyse grâce au patchage de chemins, une méthode permettant d'identifier les relations causales directes entre composants, ainsi qu'à répliquer ces observations sur d'autres familles de modèles et d'explorer le rôle des mémoires auto-encodeurs sous-denses dans la collaboration des têtes d'attention. En définitive, cette étude établit un cadre structurant pour l'interprétabilité des transformers, transformant une zone d'ombre en un circuit prévisible et exploitable.
