Neuromorphes Sprung-LLM steigert Effizienz und Erklärbarkeit
中国科学院自动化研究所李国齐、徐波团队在《National Science Review》发表题为《Neuromorphic Spike-based Large Language Model》的论文,提出神经形态脉冲大语言模型(NSLLM),通过融合神经科学原理与人工智能技术,显著提升大语言模型(LLMs)的能效与可解释性。该研究旨在应对当前LLMs在高计算成本、高功耗及决策不透明等方面的瓶颈。传统LLMs虽在性能上取得突破,但其运行依赖大量算力,如GPU部署能耗高昂,且内部机制“黑箱”特性严重,限制其在医疗、金融等关键领域的可信应用。相比之下,人脑以不足20瓦的功耗完成复杂认知任务,展现出极高的能效与信息处理透明度。NSLLM正是基于这一生物启发理念,构建了一个连接神经科学与AI的跨学科框架。 研究团队创新性地提出“整数训练—二值推理”范式,将传统LLM的连续激活值转化为离散脉冲信号,实现从连续计算到事件驱动的神经形态转换。通过脉冲线性注意力机制与整数脉冲计数—二值脉冲转换,NSLLM不仅保留了主流模型的性能,还支持直接应用神经动力学工具分析模型内部行为。例如,利用Kolmogorov-Sinai熵、Shannon熵与互信息等指标,研究发现NSLLM在处理含歧义文本时,中间层呈现更高归一化互信息,AS层表现出稀疏响应特性,FS层则具有更强的信息传递能力,揭示了不同层级在信息编码与处理中的分工机制,为模型可解释性提供了生物学依据。 在硬件层面,团队在FPGA平台(VCK190)上实现了无矩阵乘法(MatMul-Free)的定制化架构,完全消除传统LLM中耗能严重的矩阵运算。结合逐层量化策略与层级灵敏度分析,优化混合时间步脉冲模型,并引入量化辅助稀疏机制,有效降低脉冲发放率。最终,系统动态功耗降至13.849W,推理吞吐量达161.8 token/s,相比A800 GPU,能效、内存使用和吞吐量分别提升19.8倍、21.3倍和2.2倍,验证了NSLLM在超低功耗场景下的巨大潜力。 该研究由中科院自动化所、天桥脑科学研究院、清华、北大、智源研究院、悉尼大学、香港理工、超威半导体、陆兮科技等十余家国内外机构联合完成,标志着AI与神经科学深度交叉的前沿进展。业内专家认为,NSLLM为下一代高效、可信AI提供了新范式,尤其在边缘计算、智能终端和脑机接口等场景中具有广阔应用前景。该成果不仅推动了神经形态计算的发展,也为未来类脑芯片设计提供了理论与实践基础。
