Command Palette
Search for a command to run...
Les modèles de langage sont injectifs et par conséquent inversibles
Giorgos Nikolaou Tommaso Mencattini Donato Crisostomi Andrea Santilli Yannis Panagakis Emanuele Rodola'
Résumé
Les composants des modèles Transformer, tels que les fonctions d'activation non linéaires et la normalisation, sont intrinsèquement non injectifs, ce qui suggère que différentes entrées pourraient aboutir à la même sortie, empêchant ainsi la reconstruction exacte de l'entrée à partir des représentations du modèle. Dans cet article, nous remettons en question cette vision. Premièrement, nous démontrons mathématiquement que les modèles linguistiques Transformer, qui appliquent des séquences d'entrée discrètes à des séquences continues de représentations, sont injectifs, et donc sans perte, une propriété établie à l'initialisation et préservée durant l'entraînement. Deuxièmement, nous confirmons expérimentalement ce résultat à l'aide de milliards de tests de collisions sur six modèles linguistiques d'avant-garde, observant aucune collision. Troisièmement, nous mettons en œuvre l'injectivité : nous introduisons SipIt, le premier algorithme permettant de reconstruire de manière prouvée et efficace le texte d'entrée exact à partir des activations cachées, établissant des garanties de complexité linéaire et démontrant l'inversibilité exacte en pratique. Dans l'ensemble, notre travail établit l'injectivité comme une propriété fondamentale et exploitable des modèles linguistiques, avec des implications directes pour la transparence, l'interprétabilité et le déploiement sécurisé.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.