2 个月前

可微分脉冲：重新思考用于训练脉冲神经网络的梯度下降方法

{Shi Gu, Yongqing Hai, Shikuang Deng, Shanghang Zhang, Yufei Guo, Yuhang Li}

摘要

脉冲神经网络（Spiking Neural Networks, SNNs）作为一种受生物神经系统启发的计算模型，模拟了大脑神经元的脉冲发放特性。这种生物仿生特性赋予了SNN在类脑硬件上进行推理时极高的能效优势。然而，这一特性也带来了训练高性能SNN的固有挑战：由于脉冲信号具有离散性，导致无法直接进行梯度计算，从而阻碍了端到端的反向传播训练。为解决这一问题，研究者提出了代理梯度（Surrogate Gradient, SG）方法，通过引入连续松弛近似来实现梯度的可微性。然而，SG函数的选择仍依赖于经验性启发，其对SNN训练的具体作用机制尚不明确。在本研究中，我们首次从理论层面系统分析了SNN训练中的梯度下降问题，并引入有限差分梯度（Finite Difference Gradient）方法，以定量刻画SNN训练过程中的梯度行为。基于该有限差分梯度，我们提出了一类新型可微脉冲函数——可微脉冲（Differentiable Spike, Dspike）家族。Dspike函数能够在训练过程中自适应演化，动态优化其形状与平滑度，从而实现更精确的梯度估计。大量实验结果表明，在多种主流网络结构上，采用Dspike训练的SNN均显著优于当前最先进的训练方法。例如，在CIFAR10-DVS图像分类任务中，我们成功训练了一个脉冲ResNet-18网络，在仅使用10个时间步的情况下，达到了75.4%的Top-1准确率，性能显著超越现有方法。