Command Palette
Search for a command to run...
Gesteuerte Aufmerksamkeit
Das Konzept der Gated Attention wurde im Mai 2025 vom Team von Alibaba Tongyi Qianwen in Zusammenarbeit mit Forschungsteams der Universität Edinburgh, der Stanford University und anderer Universitäten entwickelt. Die entsprechenden Forschungsergebnisse wurden in der Publikation „Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsity und Attention-Sink-Free", gewann den Best Paper Award auf der NeurIPS 2025.
Das Forschungsteam untersuchte systematisch eine Reihe von Varianten der Gated-Enhanced Softmax Attention in umfangreichen Experimenten (30 Varianten von 15 Milliarden MoE- und 1,7 Milliarden Dense-Modellen, trainiert mit 3,5 Billionen Token). Die Studie ergab, dass die Anwendung eines Sigmoid-Gatings mit spezifischem Kopf nach Scaled Dot Product Attention (SDPA) die Modellleistung konsistent verbessern kann. Dieses Ergebnis unterstreicht den Einfluss von Gating-Mechanismen auf die Modellleistung und das Verhalten in Standard-Attention-Layern und zeigt deren Fähigkeit, Nichtlinearität und Sparsity einzuführen sowie Attention Traps durch die Evaluierung von Gating-Varianten zu eliminieren. Diese Erkenntnisse vertiefen das Verständnis von Gated-Attention-Mechanismen in der Branche.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.