HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

Kimi Linear: Eine ausdrucksstarke und effiziente Aufmerksamkeitsarchitektur

Kimi Linear: Eine ausdrucksstarke und effiziente Aufmerksamkeitsarchitektur

Abstract

Wir stellen Kimi Linear vor, eine hybride lineare Aufmerksamkeitsarchitektur, die erstmals in fairen Vergleichen über verschiedene Szenarien – einschließlich kurzer, langer Eingabekontexte sowie Skalierungsregime im Bereich des Verstärkungslernens (Reinforcement Learning, RL) – die klassische Vollaufmerksamkeit (full attention) schlägt. Im Kern der Architektur steht Kimi Delta Attention (KDA), ein ausdrucksstarkes lineares Aufmerksamkeitsmodul, das Gated DeltaNet durch ein feinereingestelltes Gating-Mechanismus erweitert und somit eine effektivere Nutzung des begrenzten endlichen Zustands von RNNs ermöglicht. Unser maßgeschneidertes chunkweises Algorithmus erreicht eine hohe Hardware-Effizienz durch eine spezialisierte Variante der Diagonal-Plus-Low-Rank (DPLR)-Übergangsmatrizen, die im Vergleich zur allgemeinen DPLR-Formulierung erheblich weniger Rechenaufwand erfordert, gleichzeitig aber konsistenter mit der klassischen Delta-Regel bleibt.Wir prätrainieren ein Kimi Linear-Modell mit 3 Milliarden aktivierten Parametern und insgesamt 48 Milliarden Parametern, basierend auf einer schichtweisen Hybridisierung von KDA und Multi-Head Latent Attention (MLA). Unsere Experimente zeigen, dass das Modell mit identischem Trainingsrezept im Vergleich zu einer vollständigen MLA-Architektur auf allen getesteten Aufgaben signifikant bessere Ergebnisse erzielt, dabei die Nutzung des KV-Cache um bis zu 75 % reduziert und die Decoding-Durchsatzleistung für einen Kontext von 1 Million Elementen bis zu sechsmal steigert. Diese Ergebnisse belegen, dass Kimi Linear eine direkte, leistungsstärkere und effizientere Alternative zu klassischen Vollaufmerksamkeitsarchitekturen darstellt, insbesondere für Aufgaben mit längeren Eingabe- und Ausgabesequenzen.Zur Unterstützung weiterer Forschung stellen wir den KDA-Kern sowie Implementierungen in vLLM öffentlich zur Verfügung und veröffentlichen die prätrainierten sowie instruktionsverfeinerten Modell-Checkpoints.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp