软硬协同设计高效运行边缘端 AI
密歇根大学工程学院团队在《自然通讯》发表论文,提出一种软硬协同设计方案,显著提升了边缘设备的 AI 能效并降低延迟。该方案使智能手机、助听器及自动驾驶摄像头等本地设备能够实时处理视频或传感器流等连续数据。研究首次将复杂的状态空间模型直接映射到存算一体架构中,突破了传统架构在边缘端部署的瓶颈。 当前边缘 AI 面临两大难题:硬件上,数据在存储与计算单元间频繁传输造成能耗瓶颈;软件上,主流 Transformer 模型随输入增长需占用大量内存,而脉冲神经网络虽省电但精度不足。团队通过软硬协同创新解决了这些问题。在软件层面,他们将状态空间模型简化为仅使用实数,并设定固定衰减率,既降低了芯片计算复杂度,又优化了短期记忆机制。在硬件层面,研究团队采用标准 65 纳米工艺制造了电阻式随机存取存储器交叉阵列,利用不同厚度的氧化钨忆阻器来精准匹配模型所需的衰减特性。 实验测试表明,该存算一体架构在向量矩阵乘法运算中的输出精度仅比理想值偏差 4.6 比特,且成功模拟了模型预期的衰减行为。与传统数字硬件相比,新设计在延迟和功耗上均实现显著超越。核心作者指出,该架构不仅克服了从软件移植到硬件时的噪声与性能下降问题,还保持了高精度,证明了状态空间模型与神经形态硬件的天然契合。这一突破让高效、原生的硬件 AI 得以在任何地方实时运行,为未来智能设备的普及铺平了道路。
