HyperAIHyperAI

Command Palette

Search for a command to run...

Attention Contrôlée

Date

il y a 2 mois

Organisation

Groupe Alibaba
MIT
Université de Stanford
Université d'Édimbourg

URL du document

1b7whO4SfY

Le concept d'attention contrôlée a été proposé en mai 2025 par l'équipe d'Alibaba Tongyi Qianwen, en collaboration avec des équipes de recherche de l'Université d'Édimbourg, de l'Université de Stanford et d'autres universités. Les résultats de ces recherches ont été publiés dans l'article « Attention contrôlée pour les grands modèles de langage : non-linéarité, parcimonie et absence de puits d’attention", a remporté le prix du meilleur article à NeurIPS 2025.

L'équipe de recherche a étudié de manière systématique une série de variantes d'attention softmax améliorées par la technique du gated, à travers des expériences à grande échelle (portant sur 30 variantes de modèles denses de 15 milliards de MoE et 1,7 milliard de MoE, entraînés sur 3,5 T de tokens). L'étude a révélé que l'application d'un gated sigmoïde spécifique après l'attention par produit scalaire à échelle (SDPA) permet d'améliorer systématiquement les performances du modèle. Ce résultat souligne l'impact des mécanismes de gated sur les performances et le comportement des modèles dans les couches d'attention standard, démontrant leur capacité à introduire de la non-linéarité et de la sparsité, et à éliminer les pièges d'attention grâce à l'évaluation de différentes variantes de gated. Ces conclusions contribuent à une meilleure compréhension des mécanismes d'attention gated par l'industrie.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp