
摘要
目前,处理事件相机(event-camera)数据的先进深度神经网络通常将一段时间窗口内的事件转换为密集的网格状输入表示。然而,当在高于训练时所用推理频率(即更短的时间窗口)的条件下部署时,这类模型表现出较差的泛化能力。为应对这一挑战,本文提出在基于事件的视觉任务中引入具有可学习时间尺度参数的状态空间模型(State-Space Models, SSMs)。该设计无需在不同频率下重新训练网络,即可自适应地应对频率变化。此外,我们还探讨了两种策略,以缓解在高频率部署时出现的混叠(aliasing)效应。我们在多个基准数据集上,包括Gen1和1 Mpx事件相机数据集,对所提方法与基于RNN和Transformer架构的现有方法进行了全面比较。实验结果表明,基于SSM的模型训练速度比传统方法快33%,且在高于训练输入频率的测试条件下性能下降极小。相比之下,传统的RNN和Transformer模型性能下降超过20 mAP,而SSM模型仅下降3.76 mAP,充分体现了SSM在基于事件视觉任务中的优越性与鲁棒性。