HyperAIHyperAI

Command Palette

Search for a command to run...

Gesteuerte Aufmerksamkeit

Datum

vor 2 Monaten

Organisation

Alibaba-Gruppe
MIT
Stanford Universität
Universität Edinburgh

Paper-URL

1b7whO4SfY

Das Konzept der Gated Attention wurde im Mai 2025 vom Team von Alibaba Tongyi Qianwen in Zusammenarbeit mit Forschungsteams der Universität Edinburgh, der Stanford University und anderer Universitäten entwickelt. Die entsprechenden Forschungsergebnisse wurden in der Publikation „Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsity und Attention-Sink-Free", gewann den Best Paper Award auf der NeurIPS 2025.

Das Forschungsteam untersuchte systematisch eine Reihe von Varianten der Gated-Enhanced Softmax Attention in umfangreichen Experimenten (30 Varianten von 15 Milliarden MoE- und 1,7 Milliarden Dense-Modellen, trainiert mit 3,5 Billionen Token). Die Studie ergab, dass die Anwendung eines Sigmoid-Gatings mit spezifischem Kopf nach Scaled Dot Product Attention (SDPA) die Modellleistung konsistent verbessern kann. Dieses Ergebnis unterstreicht den Einfluss von Gating-Mechanismen auf die Modellleistung und das Verhalten in Standard-Attention-Layern und zeigt deren Fähigkeit, Nichtlinearität und Sparsity einzuführen sowie Attention Traps durch die Evaluierung von Gating-Varianten zu eliminieren. Diese Erkenntnisse vertiefen das Verständnis von Gated-Attention-Mechanismen in der Branche.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gesteuerte Aufmerksamkeit | Wiki | HyperAI