HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsität und aufmerksamkeitsfreies Sinken

Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsität und aufmerksamkeitsfreies Sinken

Abstract

Gating-Mechanismen werden weithin eingesetzt, von frühen Modellen wie LSTMs und Highway Networks bis hin zu aktuellen Zustandsraummodellen, linearen Attention-Verfahren sowie auch Softmax-Attention. Dennoch untersucht die bestehende Literatur selten die spezifischen Auswirkungen von Gating. In dieser Arbeit führen wir umfassende Experimente durch, um varianten von mit Gating erweiterten Softmax-Attention systematisch zu untersuchen. Konkret vergleichen wir 30 Varianten von 15-Billionen-Parameter-Mixture-of-Experts-(MoE)-Modellen und 1,7-Billionen-Parameter-Dichte-Modelle, die auf einem Datensatz von 3,5 Billionen Tokens trainiert wurden. Unser zentrales Ergebnis ist, dass eine einfache Modifikation – die Anwendung eines kopfspezifischen Sigmoid-Gates nach dem skalierten Punktprodukt-Attention (Scaled Dot-Product Attention, SDPA) – die Leistung konsistent verbessert. Diese Modifikation erhöht zudem die Stabilität des Trainings, ermöglicht größere Lernraten und verbessert die Skalierungseigenschaften. Durch den Vergleich verschiedener Gating-Positionen und rechnerischer Varianten weisen wir die Wirksamkeit auf zwei entscheidende Faktoren zurück: (1) die Einführung von Nichtlinearität in die niedrigrangige Abbildung innerhalb der Softmax-Attention und (2) die Anwendung von fragenabhängigen, sparsen Gating-Scores zur Modulation des SDPA-Ausgangs. Besonders hervorzuheben ist, dass dieses sparsen Gating-Verfahren massive Aktivierungen und Aufsaugungseffekte (Attention Sink) reduziert und die Leistung bei der Extrapolation auf längere Kontexte verbessert. Wir stellen zudem den zugehörigen Quellcode (https://github.com/qiuzh20/gated_attention) und die Modelle (https://huggingface.co/QwQZh/gated_attention) zur Verfügung, um zukünftige Forschung zu erleichtern. Darüber hinaus wird die effektivste Gating-Modifikation des SDPA-Ausgangs in den Qwen3-Next-Modellen (https://huggingface.co/collections/Qwen/qwen3-next) eingesetzt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gated Attention für große Sprachmodelle: Nichtlinearität, Sparsität und aufmerksamkeitsfreies Sinken | Forschungsarbeiten | HyperAI