HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

SpikingBrain-Technischer Bericht: Spiking Brain-inspirierte große Modelle

Yuqi Pan Yupeng Feng Jinghao Zhuang Siyu Ding et al

SpikingBrain-Technischer Bericht: Spiking Brain-inspirierte große Modelle

Abstract

Mainstream Transformer-basierte große Sprachmodelle stoßen auf erhebliche Effizienzengpässe: Die Rechenkosten beim Training skaliert quadratisch mit der Sequenzlänge, während der Speicherbedarf beim Inferenzprozess linear ansteigt – beides begrenzt die Verarbeitung langer Kontexte. Auch die Entwicklung großer Modelle auf nicht-NVIDIA-Plattformen birgt Herausforderungen hinsichtlich stabiler und effizienter Trainingsszenarien. Um diesem Problem zu begegnen, stellen wir SpikingBrain vor, eine Familie neuronale, brain-inspirierte Modelle, die speziell für eine effiziente Verarbeitung langer Kontexte im Training und bei der Inferenz konzipiert sind. SpikingBrain nutzt den MetaX-GPU-Cluster und setzt auf drei zentrale Ansätze: (1) Modellarchitektur: lineare und hybride lineare Aufmerksamkeitsarchitekturen mit adaptiven spiking Neuronen; (2) algorithmische Optimierungen: ein effizientes, konversionsbasiertes Trainingsschema sowie ein spezifisches Spike-Coding-Framework; (3) Systemtechnik: maßgeschneiderte Trainingssysteme, Operator-Bibliotheken und Parallelisierungsstrategien, die auf die MetaX-Hardware abgestimmt sind.Mit diesen Techniken entwickeln wir zwei Modelle: SpikingBrain-7B, ein lineares Sprachmodell, und SpikingBrain-76B, ein hybride lineare MoE-Modell (Mixture of Experts). Diese zeigen die Machbarkeit der Entwicklung von Großmodellen auf nicht-NVIDIA-Plattformen. SpikingBrain erreicht eine Leistung, die mit offenen Transformer-Baselines vergleichbar ist, benötigt jedoch lediglich etwa 150 Milliarden Tokens für kontinuierliches Pre-Training. Unsere Modelle steigern signifikant die Effizienz beim Training langer Sequenzen und ermöglichen eine Inferenz mit (teilweise) konstantem Speicherverbrauch und ereignisgesteuerter spiking-ähnlicher Aktivität. So erreicht SpikingBrain-7B bei Sequenzen von 4 Millionen Tokens eine Beschleunigung um mehr als das 100-fache im Time-to-First-Token. Das Training bleibt über Wochen stabil auf Hunderten von MetaX C550-GPUs, wobei das 7B-Modell eine Modell-FLOPs-Auslastung von 23,4 Prozent erreicht. Der vorgeschlagene spiking-basierte Ansatz erreicht eine Sparsitätsrate von 69,15 Prozent, was eine energiesparende Betriebsweise ermöglicht. Insgesamt zeigt diese Arbeit das Potenzial brain-inspirierter Mechanismen, die nächste Generation effizienter und skalierbarer großer Modelle zu gestalten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SpikingBrain-Technischer Bericht: Spiking Brain-inspirierte große Modelle | Forschungsarbeiten | HyperAI