Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsität und aufmerksamkeitsfreies Sinken

Abstract
Gating-Mechanismen werden weithin eingesetzt, von frühen Modellen wie LSTMs und Highway Networks bis hin zu aktuellen Zustandsraummodellen, linearen Attention-Verfahren sowie auch Softmax-Attention. Dennoch untersucht die bestehende Literatur selten die spezifischen Auswirkungen von Gating. In dieser Arbeit führen wir umfassende Experimente durch, um varianten von mit Gating erweiterten Softmax-Attention systematisch zu untersuchen. Konkret vergleichen wir 30 Varianten von 15-Billionen-Parameter-Mixture-of-Experts-(MoE)-Modellen und 1,7-Billionen-Parameter-Dichte-Modelle, die auf einem Datensatz von 3,5 Billionen Tokens trainiert wurden. Unser zentrales Ergebnis ist, dass eine einfache Modifikation – die Anwendung eines kopfspezifischen Sigmoid-Gates nach dem skalierten Punktprodukt-Attention (Scaled Dot-Product Attention, SDPA) – die Leistung konsistent verbessert. Diese Modifikation erhöht zudem die Stabilität des Trainings, ermöglicht größere Lernraten und verbessert die Skalierungseigenschaften. Durch den Vergleich verschiedener Gating-Positionen und rechnerischer Varianten weisen wir die Wirksamkeit auf zwei entscheidende Faktoren zurück: (1) die Einführung von Nichtlinearität in die niedrigrangige Abbildung innerhalb der Softmax-Attention und (2) die Anwendung von fragenabhängigen, sparsen Gating-Scores zur Modulation des SDPA-Ausgangs. Besonders hervorzuheben ist, dass dieses sparsen Gating-Verfahren massive Aktivierungen und Aufsaugungseffekte (Attention Sink) reduziert und die Leistung bei der Extrapolation auf längere Kontexte verbessert. Wir stellen zudem den zugehörigen Quellcode (https://github.com/qiuzh20/gated_attention) und die Modelle (https://huggingface.co/QwQZh/gated_attention) zur Verfügung, um zukünftige Forschung zu erleichtern. Darüber hinaus wird die effektivste Gating-Modifikation des SDPA-Ausgangs in den Qwen3-Next-Modellen (https://huggingface.co/collections/Qwen/qwen3-next) eingesetzt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.