HyperAIHyperAI

Command Palette

Search for a command to run...

Attention Contrôlée

Date

il y a 2 mois

Organization

Groupe Alibaba
MIT
Université de Stanford
Université d'Édimbourg

Paper URL

1b7whO4SfY

Le concept d'attention contrôlée a été proposé en mai 2025 par l'équipe d'Alibaba Tongyi Qianwen, en collaboration avec des équipes de recherche de l'Université d'Édimbourg, de l'Université de Stanford et d'autres universités. Les résultats de ces recherches ont été publiés dans l'article « Attention contrôlée pour les grands modèles de langage : non-linéarité, parcimonie et absence de puits d’attention", a remporté le prix du meilleur article à NeurIPS 2025.

L'équipe de recherche a étudié de manière systématique une série de variantes d'attention softmax améliorées par la technique du gated, à travers des expériences à grande échelle (portant sur 30 variantes de modèles denses de 15 milliards de MoE et 1,7 milliard de MoE, entraînés sur 3,5 T de tokens). L'étude a révélé que l'application d'un gated sigmoïde spécifique après l'attention par produit scalaire à échelle (SDPA) permet d'améliorer systématiquement les performances du modèle. Ce résultat souligne l'impact des mécanismes de gated sur les performances et le comportement des modèles dans les couches d'attention standard, démontrant leur capacité à introduire de la non-linéarité et de la sparsité, et à éliminer les pièges d'attention grâce à l'évaluation de différentes variantes de gated. Ces conclusions contribuent à une meilleure compréhension des mécanismes d'attention gated par l'industrie.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp