HyperAIHyperAI

Command Palette

Search for a command to run...

Gesteuerte Aufmerksamkeit

Date

vor 2 Monaten

Organization

Alibaba-Gruppe
MIT
Stanford Universität
Universität Edinburgh

Paper URL

1b7whO4SfY

Das Konzept der Gated Attention wurde im Mai 2025 vom Team von Alibaba Tongyi Qianwen in Zusammenarbeit mit Forschungsteams der Universität Edinburgh, der Stanford University und anderer Universitäten entwickelt. Die entsprechenden Forschungsergebnisse wurden in der Publikation „Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsity und Attention-Sink-Free", gewann den Best Paper Award auf der NeurIPS 2025.

Das Forschungsteam untersuchte systematisch eine Reihe von Varianten der Gated-Enhanced Softmax Attention in umfangreichen Experimenten (30 Varianten von 15 Milliarden MoE- und 1,7 Milliarden Dense-Modellen, trainiert mit 3,5 Billionen Token). Die Studie ergab, dass die Anwendung eines Sigmoid-Gatings mit spezifischem Kopf nach Scaled Dot Product Attention (SDPA) die Modellleistung konsistent verbessern kann. Dieses Ergebnis unterstreicht den Einfluss von Gating-Mechanismen auf die Modellleistung und das Verhalten in Standard-Attention-Layern und zeigt deren Fähigkeit, Nichtlinearität und Sparsity einzuführen sowie Attention Traps durch die Evaluierung von Gating-Varianten zu eliminieren. Diese Erkenntnisse vertiefen das Verständnis von Gated-Attention-Mechanismen in der Branche.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gesteuerte Aufmerksamkeit | Wiki | HyperAI