Transformateur Différentiel
Le transformateur différentiel (Diff Transformer en abrégé) est une nouvelle architecture de transformateur, proposée conjointement par Microsoft Research et l'Université Tsinghua en 2024. Les résultats de l'article associé sont "Transformateur différentiel", 4 co-auteurs : Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun. Le cœur de cette architecture réside dans son mécanisme d'attention différentielle, qui vise à résoudre le problème selon lequel le transformateur traditionnel a du mal à récupérer avec précision les informations clés lors du traitement de textes longs, ce qui est le phénomène dit de « perte d'informations intermédiaires ».
Diff Transformer calcule deux cartes d'attention softmax indépendantes, puis prend la différence pour obtenir le score d'attention final. Cette méthode peut éliminer efficacement le bruit d’attention et inciter le modèle à accorder plus d’attention aux parties les plus pertinentes de l’entrée. Ce mécanisme est similaire aux casques antibruit et aux amplificateurs différentiels en génie électrique, qui annulent le bruit en utilisant la différence entre deux signaux.
Les résultats expérimentaux montrent que Diff Transformer surpasse le Transformer traditionnel dans les tâches de modélisation du langage dans divers contextes. Il est non seulement évolutif en termes de taille de modèle et de nombre de jetons d'entraînement, mais présente également des avantages significatifs dans des applications pratiques telles que la modélisation à long contexte, la récupération d'informations clés, le soulagement des hallucinations et l'apprentissage contextuel. De plus, Diff Transformer peut réduire efficacement les valeurs aberrantes dans les valeurs d'activation du modèle, est plus convivial pour la quantification du modèle et améliore l'efficacité du modèle.
L'introduction de Diff Transformer fournit de nouvelles idées pour le développement de grands modèles de langage et devrait jouer un rôle important dans de nombreux domaines tels que les systèmes de dialogue intelligents, la génération de texte et l'extraction de données.