中国科学院自动化研究所李国齐、徐波团队联合沐曦MetaX,发布全球首个基于内生复杂性理论的类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0),实现国产千卡GPU平台全流程训练与推理,在超长序列处理上达成数量级效率突破。该模型开创性地构建了非Transformer架构的新技术路线,标志着我国在类脑智能与自主可控大模型生态建设上迈出关键一步。 “瞬悉1.0”基于团队原创的内生复杂性理论,突破传统Transformer模型依赖外生复杂性(即通过堆叠参数和数据提升性能)的局限,转而模拟大脑神经元内部动态机制,提出脉冲神经元内生动力学与线性注意力之间的理论关联,揭示现有线性注意力本质上是树突计算的简化形式,为构建更高效、更接近生物智能的模型提供了全新路径。 该模型在多个维度实现重大突破: 一是极低数据量下的高效训练。SpikingBrain-1.0-7B模型仅用主流大模型约2%的预训练数据,便在多任务语言理解(MMLU)、中文任务(CMMLU、Ceval)及常识推理(ARC、HS)等关键指标上达到可比性能,训练复杂度呈线性或近线性增长,显著提升长序列训练效率。 二是推理效率实现数量级跃升。得益于脉冲神经元的事件驱动特性,模型在推理阶段复杂度接近常数,TTFT(首个Token生成时间)在100万Token长度下比传统Transformer加速26.5倍,400万Token长度下加速超100倍;在手机CPU端,64k至256k长度下解码速度相较Llama3.2同规模模型提升4.04倍至15.39倍,具备极强的边缘部署潜力。 三是构建国产自主可控的类脑大模型生态。模型全面适配国产沐曦MetaX曦云C550 GPU集群,自主研发高效训练推理框架、Triton算子库、模型并行策略与集群通信原语,验证了非Transformer架构在国产算力平台上的可行性与先进性。 四是创新提出动态阈值脉冲化多尺度稀疏机制。结合两阶段动态阈值与混合专家(MoE)架构,在7B模型上实现超69%的稀疏度,长序列脉冲占比仅约1.85%,为低功耗、高能效类脑计算提供坚实支撑。 “瞬悉1.0”是我国首次在国产GPU集群上实现大规模类脑脉冲大模型的训练与推理,首次提出并验证了基于内生复杂性的线性基础模型架构。其在法律文书、医学报告、高能物理实验、DNA序列分析、分子动力学模拟等超长序列建模场景中展现出巨大应用潜力,为下一代神经形态计算理论与芯片设计提供重要启示。 目前,研究团队已开源SpikingBrain-1.0-7B模型,并开放SpikingBrain-1.0-76B测试入口,同步发布中英文技术报告与完整代码,推动国产非Transformer大模型生态发展。这一成果标志着我国在新型人工智能架构探索上取得重大原创性进展,为全球AI技术演进贡献中国智慧。
近日,中国科学院自动化研究所李国齐、徐波团队联合沐曦科技,成功研发并发布类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0),标志着我国在非Transformer架构大模型领域取得关键突破。该模型基于原创的“内生复杂性”理论,依托国产千卡GPU算力平台——沐曦MetaX曦云C550集群,完成了从训练到推理的全流程部署,实现了超长序列处理效率的数量级跃升,为构建自主可控的人工智能技术生态提供了全新路径。 当前主流大模型以Transformer架构为核心,依赖大规模数据与算力驱动性能提升,但其计算单元为简化点神经元模型,存在训练开销随序列长度平方增长、推理显存线性上升等固有瓶颈,严重制约了对超长序列任务的处理能力。针对这一问题,研究团队提出“内生复杂性”新范式,借鉴大脑神经元内部复杂的动力学机制,构建以脉冲神经元为基础的新型模型架构。通过理论创新,揭示了脉冲神经元的内生动力学与线性注意力机制之间的深层联系,证明后者实为树突计算的一种简化形式,从而为模型复杂度与性能的持续提升提供了清晰可行的技术路径。 在此基础上,团队研发并开源了SpikingBrain-1.0-7B与SpikingBrain-1.0-76B两款模型,分别具备线性与混合复杂度特性,激活参数量达12B。配套开发了适配国产GPU的高效训练推理框架、Triton算子库、模型并行策略及集群通信原语,全面支撑大规模模型的国产化落地。 “瞬悉1.0”在多项核心指标上实现显著突破:其一,训练效率大幅提升,复杂度接近线性,仅用主流模型2%的预训练数据量,即在MMLU、CMMLU、Ceval、ARC、HS等多任务评测中达到相当性能;其二,推理效率实现数量级飞跃——在100万Token长度下,生成首个Token的时间(TTFT)较Transformer架构提速26.5倍,400万Token下提速超100倍;在手机CPU端,对64k至256k长度序列的解码速度较Llama3.2同规模模型提升4.04倍至15.39倍;其三,创新提出动态阈值脉冲化与混合专家(MoE)结合的多尺度稀疏机制,在7B模型上实现超过69.15%的稀疏度,长序列脉冲占比仅1.85%,极大降低功耗,为低功耗类脑计算奠定基础。 该成果是我国首次提出大规模类脑线性基础模型架构,并首次在国产GPU集群上完成类脑脉冲大模型的全链路训练与推理,成功破解了脉冲驱动下大模型性能退化难题。在法律文书分析、医学文献处理、高能物理模拟、DNA序列建模、分子动力学轨迹预测等超长序列场景中,具备显著应用潜力。 “瞬悉1.0”的发布,不仅为人工智能提供了非Transformer的新技术路线,更将推动神经形态计算理论与芯片设计的演进,助力我国在下一代智能计算领域抢占先机。相关技术报告、模型代码及在线试用接口已全面开放,供学术界与产业界研究与验证。