17 天前

HALSIE:一种通过同时利用图像与事件模态实现分割学习的混合方法

Shristi Das Biswas, Adarsh Kosta, Chamika Liyanagedera, Marco Apolinario, Kaushik Roy
HALSIE:一种通过同时利用图像与事件模态实现分割学习的混合方法
摘要

事件相机(event cameras)通过检测像素级亮度的变化来生成异步的“事件流”(event streams)。相较于传统相机,事件相机具备更高的时间分辨率和宽动态范围(HDR),因此在实时自主系统中具有实现高精度语义地图检索的巨大潜力。然而,现有的基于事件的分割方法性能仍不理想,原因在于这些时序密集的事件仅捕捉视觉信号中的变化分量,难以像图像帧那样有效编码密集的空间上下文信息,从而限制了其表达能力。为解决这一问题,本文提出一种混合式端到端学习框架HALSIE,通过引入三项关键技术,在保持相近性能的前提下,将推理开销降低至先前方法的1/20。具体包括:第一,设计了一种简单高效的跨域学习机制,能够从图像帧与事件数据中提取互补的时空嵌入特征;第二,采用专为低延迟优化的双编码器架构,融合脉冲神经网络(Spiking Neural Network, SNN)与人工神经网络(Artificial Neural Network, ANN)分支,有效实现跨域特征聚合的同时显著降低延迟;第三,引入多尺度提示混合模块(multi-scale cue mixer),以建模融合后嵌入的丰富表征能力。上述特性使HALSIE具备极轻量化的网络结构,在DDD-17、MVSEC和DSEC-Semantic等主流数据集上均达到当前最优的分割性能,参数效率最高提升达33倍,且推理能耗仅为每周期17.9毫焦(mJ),表现出优异的能效比。此外,本研究的消融实验也揭示了若干关键设计选择的有效性,为其他视觉任务的研究提供了有益的参考与启示。