17 天前
基于循环异步多模态网络融合事件与帧用于单目深度预测
Daniel Gehrig, Michelle Rüegg, Mathias Gehrig, Javier Hidalgo Carrio, Davide Scaramuzza

摘要
事件相机(event cameras)是一种新型视觉传感器,能够以异步“事件”流的形式报告每个像素的亮度变化。相较于传统相机,事件相机具有高时间分辨率、高动态范围以及无运动模糊等显著优势。然而,事件仅捕捉视觉信号中的变化分量,难以有效编码场景的上下文信息。相比之下,传统相机采集的是绝对强度帧,能够提供更为丰富的场景表征。因此,两类传感器具有互补性。但由于事件数据具有异步特性,将其与同步图像融合仍面临挑战,尤其是在基于学习的方法中。这是因为传统的循环神经网络(RNNs)并未针对来自其他传感器的异步、非规则数据进行设计。为解决这一问题,我们提出了循环异步多模态网络(Recurrent Asynchronous Multimodal, RAM)网络,该模型将传统RNN扩展至能够处理来自多个传感器的异步与非规则数据。受传统RNN的启发,RAM网络维持一个可异步更新的隐藏状态,且可在任意时刻被查询以生成预测结果。我们将该新型架构应用于基于事件与帧的单目深度估计任务,在平均绝对深度误差指标上,相较当前最优方法实现了最高达30%的性能提升。为进一步推动事件数据驱动的多模态学习研究,我们发布了新数据集EventScape,该数据集在CARLA模拟器中采集,包含事件流、强度图像、语义标签及深度图等多模态信息。