Command Palette
Search for a command to run...
Attention Contrôlée
Le concept d'attention contrôlée a été proposé en mai 2025 par l'équipe d'Alibaba Tongyi Qianwen, en collaboration avec des équipes de recherche de l'Université d'Édimbourg, de l'Université de Stanford et d'autres universités. Les résultats de ces recherches ont été publiés dans l'article « Attention contrôlée pour les grands modèles de langage : non-linéarité, parcimonie et absence de puits d’attention", a remporté le prix du meilleur article à NeurIPS 2025.
L'équipe de recherche a étudié de manière systématique une série de variantes d'attention softmax améliorées par la technique du gated, à travers des expériences à grande échelle (portant sur 30 variantes de modèles denses de 15 milliards de MoE et 1,7 milliard de MoE, entraînés sur 3,5 T de tokens). L'étude a révélé que l'application d'un gated sigmoïde spécifique après l'attention par produit scalaire à échelle (SDPA) permet d'améliorer systématiquement les performances du modèle. Ce résultat souligne l'impact des mécanismes de gated sur les performances et le comportement des modèles dans les couches d'attention standard, démontrant leur capacité à introduire de la non-linéarité et de la sparsité, et à éliminer les pièges d'attention grâce à l'évaluation de différentes variantes de gated. Ces conclusions contribuent à une meilleure compréhension des mécanismes d'attention gated par l'industrie.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.