Command Palette
Search for a command to run...
Kimi Linear: Eine ausdrucksstarke und effiziente Aufmerksamkeitsarchitektur

Abstract
Wir stellen Kimi Linear vor, eine hybride lineare Aufmerksamkeitsarchitektur, die erstmals in fairen Vergleichen über verschiedene Szenarien – einschließlich kurzer, langer Eingabekontexte sowie Skalierungsregime im Bereich des Verstärkungslernens (Reinforcement Learning, RL) – die klassische Vollaufmerksamkeit (full attention) schlägt. Im Kern der Architektur steht Kimi Delta Attention (KDA), ein ausdrucksstarkes lineares Aufmerksamkeitsmodul, das Gated DeltaNet durch ein feinereingestelltes Gating-Mechanismus erweitert und somit eine effektivere Nutzung des begrenzten endlichen Zustands von RNNs ermöglicht. Unser maßgeschneidertes chunkweises Algorithmus erreicht eine hohe Hardware-Effizienz durch eine spezialisierte Variante der Diagonal-Plus-Low-Rank (DPLR)-Übergangsmatrizen, die im Vergleich zur allgemeinen DPLR-Formulierung erheblich weniger Rechenaufwand erfordert, gleichzeitig aber konsistenter mit der klassischen Delta-Regel bleibt.Wir prätrainieren ein Kimi Linear-Modell mit 3 Milliarden aktivierten Parametern und insgesamt 48 Milliarden Parametern, basierend auf einer schichtweisen Hybridisierung von KDA und Multi-Head Latent Attention (MLA). Unsere Experimente zeigen, dass das Modell mit identischem Trainingsrezept im Vergleich zu einer vollständigen MLA-Architektur auf allen getesteten Aufgaben signifikant bessere Ergebnisse erzielt, dabei die Nutzung des KV-Cache um bis zu 75 % reduziert und die Decoding-Durchsatzleistung für einen Kontext von 1 Million Elementen bis zu sechsmal steigert. Diese Ergebnisse belegen, dass Kimi Linear eine direkte, leistungsstärkere und effizientere Alternative zu klassischen Vollaufmerksamkeitsarchitekturen darstellt, insbesondere für Aufgaben mit längeren Eingabe- und Ausgabesequenzen.Zur Unterstützung weiterer Forschung stellen wir den KDA-Kern sowie Implementierungen in vLLM öffentlich zur Verfügung und veröffentlichen die prätrainierten sowie instruktionsverfeinerten Modell-Checkpoints.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.