HyperAIHyperAI
Back to Headlines

Chinas erster klassenbasiertes Pulsmuster-Modell „Shunxi 1.0“ auf国产 GPU-Plattform

vor 10 Tagen

中国科学院自动化研究所李国齐、徐波团队联合沐曦MetaX,基于原创的内生复杂性理论,成功研发出类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0),并在国产千卡GPU算力平台“沐曦MetaX曦云C550”上完成全流程训练与推理。该模型标志着我国首次实现大规模类脑线性基础模型架构的构建,并在国产GPU集群上建立起完整的训练与推理框架,为非Transformer架构的大模型发展提供了自主可控的技术路径。与主流Transformer模型依赖外生复杂性(通过扩大参数量和算力提升性能)不同,“瞬悉1.0”采用“内生复杂性”理念,借鉴大脑神经元内部的动力学机制,以脉冲神经元为核心计算单元,突破了传统模型在长序列处理中训练开销平方增长、推理显存线性膨胀的瓶颈。 研究团队首次揭示了脉冲神经元内生动力学与线性注意力机制之间的理论联系,证明线性注意力可视为树突计算的简化形式,为构建高效、可扩展的类脑模型提供了理论支撑。在此基础上,团队开发了SpikingBrain-1.0-7B(线性复杂度)与SpikingBrain-1.0-76B(混合线性复杂度,激活参数12B)两款模型,并开源了模型权重与技术报告。关键性能突破体现在四个方面:其一,训练效率显著提升,仅需主流模型约2%的预训练数据量,即可在MMLU、CMMLU、Ceval、ARC、HS等任务上达到相当水平;其二,推理速度实现数量级飞跃,7B模型在100万Token长度下TTFT(首个Token生成时间)比Transformer快26.5倍,400万Token下超100倍加速;在手机CPU端,64k–256k长度下解码速度相较Llama3.2提升4.04x至15.39x;其三,构建了完整的国产化生态,适配国产GPU集群,集成Triton算子库、模型并行策略与通信原语,验证了非Transformer架构在国产硬件上的可行性;其四,提出基于动态阈值的多尺度稀疏机制,实现超69%的稀疏度,长序列脉冲占比仅1.85%,极大降低能耗,为低功耗类脑计算提供支撑。 该成果在法律文书分析、医学文档处理、高能物理实验、DNA序列建模、分子动力学模拟等超长序列任务中具有显著应用潜力。作为我国首个在国产GPU上实现端到端训练与推理的类脑脉冲大模型,“瞬悉1.0”不仅突破了脉冲神经网络在大规模任务中的性能退化难题,更开辟了非Transformer架构的新范式,推动神经形态计算理论与芯片设计的演进。业内专家认为,该工作标志着我国在类脑智能与自主AI架构领域迈出关键一步,为下一代低功耗、高效率人工智能系统提供了全新技术路线,具有深远的战略意义。

Related Links