Les Transformers et l'attention sont en réalité des machines d'addition avancées
Les Transformers et l'attention sont souvent perçus comme des modèles complexes et mystérieux dans le domaine de l'intelligence artificielle. Cependant, une nouvelle sous-branchement de la recherche, appelé « mécanistic interpretation », propose une vision différente : ces modèles pourraient être vus comme des machines d'addition avancées. Contrairement aux techniques classiques d'explicabilité comme SHAP et LIME, qui analysent les contributions des caractéristiques à la prédiction du modèle, cette approche explore comment les réseaux de neurones apprennent et utilisent les informations à un niveau plus fin, en se concentrant sur les neurones et leurs interactions. SHAP (SHapley Additive exPlanations) permet de mesurer l'importance de chaque caractéristique pour une prédiction donnée, à la fois localement et globalement. LIME, quant à lui, approxime le comportement d'un modèle noir en perturbant l'entrée et en observant les changements de sortie. Ces deux méthodes restent à l'échelle des caractéristiques, tandis que le mécanistic interpretation va au-delà en examinant le fonctionnement interne des couches du réseau, en identifiant quels neurones s'activent pour quels features et comment ces derniers évoluent à travers les couches. Le mécanistic interpretation se concentre donc sur des questions comme : « Quels neurones s'activent pour un feature donné ? » et « Comment ce feature influence-t-il la sortie ? ». Cette approche est particulièrement pertinente pour les réseaux profonds, comme les Transformers, qui sont difficiles à interpréter avec les méthodes traditionnelles. Dans le cas des Transformers, une partie clé est le multi-head attention (MHA), un mécanisme qui permet au modèle de se concentrer sur plusieurs parties d'une entrée simultanément. Traditionnellement, le MHA est conçu avec des opérations de multiplication et de concaténation. Cependant, l'interprétation mécanistique propose de reformuler ces opérations en des additions, ce qui simplifie la compréhension du fonctionnement interne. Le processus de calcul de l'attention dans un Transformer commence par la génération des embeddings, puis l'ajout des encodages de position. Les embeddings sont ensuite copiés dans les matrices Query (Q), Key (K) et Value (V), qui sont transformés individuellement par des couches linéaires. À chaque tête d'attention, un produit scalaire est calculé entre Q et K, suivi d'une multiplication avec V. Ensuite, les résultats des différentes têtes sont concaténés et projetés à nouveau via une matrice linéaire. Cependant, le mécanistic interpretation propose de remplacer la concaténation par une somme directe des résultats de chaque tête. Cela revient à multiplier les sorties de chaque tête par une matrice de projection et à les additionner, ce qui est mathématiquement équivalent à la concaténation suivie d'une projection. Cette réinterprétation permet de voir les Transformers comme des modèles purement additifs, où chaque couche ajoute des informations à l'embedding initial. Cette perspective ouvre des possibilités nouvelles, comme le « circuit tracing », une méthode permettant de suivre comment les features sont apprises et transformées à travers les couches via des opérations d'addition. Cela facilite une meilleure compréhension des mécanismes internes des Transformers et pourrait aider à rendre ces modèles plus transparents et interprétables. Cette approche, bien que mathématiquement équivalente à la version traditionnelle, offre une vision différente qui peut inspirer de nouvelles recherches et méthodes d'analyse. Les experts en IA soulignent que cette réinterprétation est non seulement théoriquement solide, mais qu'elle pourrait également améliorer la compréhension des modèles, facilitant ainsi leur utilisation et leur confiance dans des applications critiques. Des entreprises comme Google et Meta investissent dans ces recherches pour mieux comprendre et optimiser leurs modèles de langage.