Les modèles de langage sont injectifs et inversibles : une découverte clé pour la transparence et la sécurité des IA
Les modèles de langage basés sur l’architecture Transformer sont injectifs, et par conséquent inversibles. Bien que des composants tels que les fonctions d’activation non linéaires et les normalisations soient généralement considérés comme non injectifs — c’est-à-dire pouvant faire correspondre des entrées différentes à la même sortie — cette étude remet en question cette vision. Elle démontre mathématiquement que les modèles de langage Transformer, lorsqu’ils transforment des séquences discrètes d’entrée en séquences continues de représentations, sont injectifs dès l’initialisation et conservent cette propriété tout au long de l’entraînement. Autrement dit, chaque séquence d’entrée produit une représentation unique, ce qui implique que l’information initiale peut être exactement récupérée. Cette propriété fondamentale est confirmée empiriquement à grande échelle : des tests sur des milliards de paires d’entrées ont été menés sur six modèles de langage d’avant-garde, sans jamais observer de collision — c’est-à-dire deux entrées différentes produisant la même représentation. Ces résultats expérimentaux renforcent la validité théorique de l’injectivité dans des conditions réalistes et à grande échelle. En outre, l’étude introduit SipIt, le premier algorithme capable de reconstruire exactement le texte d’entrée à partir des activations cachées du modèle, avec des garanties de temps linéaire. SipIt est non seulement théoriquement fondé sur la propriété d’injectivité, mais aussi efficace en pratique, permettant une inversion exacte des représentations dans des délais raisonnables. Cette capacité d’inversion ouvre de nouvelles perspectives pour l’interprétabilité, la transparence et la sécurité des modèles de langage. En somme, cette recherche établit l’injectivité comme une caractéristique fondamentale et exploitable des modèles de langage Transformer. Elle transforme une propriété théorique en outil pratique, offrant des moyens concrets de comprendre, vérifier et surveiller le fonctionnement interne des modèles, ce qui est essentiel pour leur déploiement responsable et sûr dans des applications critiques.
