Command Palette
Search for a command to run...
Attention Contrôlée
Le concept d'attention contrôlée a été proposé en mai 2025 par l'équipe d'Alibaba Tongyi Qianwen, en collaboration avec des équipes de recherche de l'Université d'Édimbourg, de l'Université de Stanford et d'autres universités. Les résultats de ces recherches ont été publiés dans l'article « Attention contrôlée pour les grands modèles de langage : non-linéarité, parcimonie et absence de puits d’attention", a remporté le prix du meilleur article à NeurIPS 2025.
L'équipe de recherche a étudié de manière systématique une série de variantes d'attention softmax améliorées par la technique du gated, à travers des expériences à grande échelle (portant sur 30 variantes de modèles denses de 15 milliards de MoE et 1,7 milliard de MoE, entraînés sur 3,5 T de tokens). L'étude a révélé que l'application d'un gated sigmoïde spécifique après l'attention par produit scalaire à échelle (SDPA) permet d'améliorer systématiquement les performances du modèle. Ce résultat souligne l'impact des mécanismes de gated sur les performances et le comportement des modèles dans les couches d'attention standard, démontrant leur capacité à introduire de la non-linéarité et de la sparsité, et à éliminer les pièges d'attention grâce à l'évaluation de différentes variantes de gated. Ces conclusions contribuent à une meilleure compréhension des mécanismes d'attention gated par l'industrie.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.