HyperAI

Abstract

Gating-Mechanismen werden weithin eingesetzt, von frühen Modellen wie LSTMs und Highway Networks bis hin zu aktuellen Zustandsraummodellen, linearen Attention-Verfahren sowie auch Softmax-Attention. Dennoch untersucht die bestehende Literatur selten die spezifischen Auswirkungen von Gating. In dieser Arbeit führen wir umfassende Experimente durch, um varianten von mit Gating erweiterten Softmax-Attention systematisch zu untersuchen. Konkret vergleichen wir 30 Varianten von 15-Billionen-Parameter-Mixture-of-Experts-(MoE)-Modellen und 1,7-Billionen-Parameter-Dichte-Modelle, die auf einem Datensatz von 3,5 Billionen Tokens trainiert wurden. Unser zentrales Ergebnis ist, dass eine einfache Modifikation – die Anwendung eines kopfspezifischen Sigmoid-Gates nach dem skalierten Punktprodukt-Attention (Scaled Dot-Product Attention, SDPA) – die Leistung konsistent verbessert. Diese Modifikation erhöht zudem die Stabilität des Trainings, ermöglicht größere Lernraten und verbessert die Skalierungseigenschaften. Durch den Vergleich verschiedener Gating-Positionen und rechnerischer Varianten weisen wir die Wirksamkeit auf zwei entscheidende Faktoren zurück: (1) die Einführung von Nichtlinearität in die niedrigrangige Abbildung innerhalb der Softmax-Attention und (2) die Anwendung von fragenabhängigen, sparsen Gating-Scores zur Modulation des SDPA-Ausgangs. Besonders hervorzuheben ist, dass dieses sparsen Gating-Verfahren massive Aktivierungen und Aufsaugungseffekte (Attention Sink) reduziert und die Leistung bei der Extrapolation auf längere Kontexte verbessert. Wir stellen zudem den zugehörigen Quellcode (https://github.com/qiuzh20/gated_attention) und die Modelle (https://huggingface.co/QwQZh/gated_attention) zur Verfügung, um zukünftige Forschung zu erleichtern. Darüber hinaus wird die effektivste Gating-Modifikation des SDPA-Ausgangs in den Qwen3-Next-Modellen (https://huggingface.co/collections/Qwen/qwen3-next) eingesetzt.

Abstract

Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsität und aufmerksamkeitsfreies Sinken

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang

Abstract

KI mit KI entwickeln

Hyper Newsletters

Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsität und aufmerksamkeitsfreies Sinken

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsität und aufmerksamkeitsfreies Sinken

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang3 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsität und aufmerksamkeitsfreies Sinken

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang3 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang

Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen Songlin Yang Rui Men Le Yu Fei Huang Suozhi Huang