Command Palette
Search for a command to run...
SpikingBrain-Technischer Bericht: Spiking Brain-inspirierte große Modelle
Yuqi Pan Yupeng Feng Jinghao Zhuang Siyu Ding et al

Abstract
Mainstream Transformer-basierte große Sprachmodelle stoßen auf erhebliche Effizienzengpässe: Die Rechenkosten beim Training skaliert quadratisch mit der Sequenzlänge, während der Speicherbedarf beim Inferenzprozess linear ansteigt – beides begrenzt die Verarbeitung langer Kontexte. Auch die Entwicklung großer Modelle auf nicht-NVIDIA-Plattformen birgt Herausforderungen hinsichtlich stabiler und effizienter Trainingsszenarien. Um diesem Problem zu begegnen, stellen wir SpikingBrain vor, eine Familie neuronale, brain-inspirierte Modelle, die speziell für eine effiziente Verarbeitung langer Kontexte im Training und bei der Inferenz konzipiert sind. SpikingBrain nutzt den MetaX-GPU-Cluster und setzt auf drei zentrale Ansätze: (1) Modellarchitektur: lineare und hybride lineare Aufmerksamkeitsarchitekturen mit adaptiven spiking Neuronen; (2) algorithmische Optimierungen: ein effizientes, konversionsbasiertes Trainingsschema sowie ein spezifisches Spike-Coding-Framework; (3) Systemtechnik: maßgeschneiderte Trainingssysteme, Operator-Bibliotheken und Parallelisierungsstrategien, die auf die MetaX-Hardware abgestimmt sind.Mit diesen Techniken entwickeln wir zwei Modelle: SpikingBrain-7B, ein lineares Sprachmodell, und SpikingBrain-76B, ein hybride lineare MoE-Modell (Mixture of Experts). Diese zeigen die Machbarkeit der Entwicklung von Großmodellen auf nicht-NVIDIA-Plattformen. SpikingBrain erreicht eine Leistung, die mit offenen Transformer-Baselines vergleichbar ist, benötigt jedoch lediglich etwa 150 Milliarden Tokens für kontinuierliches Pre-Training. Unsere Modelle steigern signifikant die Effizienz beim Training langer Sequenzen und ermöglichen eine Inferenz mit (teilweise) konstantem Speicherverbrauch und ereignisgesteuerter spiking-ähnlicher Aktivität. So erreicht SpikingBrain-7B bei Sequenzen von 4 Millionen Tokens eine Beschleunigung um mehr als das 100-fache im Time-to-First-Token. Das Training bleibt über Wochen stabil auf Hunderten von MetaX C550-GPUs, wobei das 7B-Modell eine Modell-FLOPs-Auslastung von 23,4 Prozent erreicht. Der vorgeschlagene spiking-basierte Ansatz erreicht eine Sparsitätsrate von 69,15 Prozent, was eine energiesparende Betriebsweise ermöglicht. Insgesamt zeigt diese Arbeit das Potenzial brain-inspirierter Mechanismen, die nächste Generation effizienter und skalierbarer großer Modelle zu gestalten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.