
摘要
事件相机(Event Cameras)或动态视觉传感器(Dynamic Vision Sensor, DVS)是一种非常有前景的传感器,已经显示出相对于帧式相机的多项优势。然而,最近关于这些相机在实际应用中的研究主要集中在三维重建和六自由度(6-DOF)相机跟踪上。基于深度学习的方法在视觉识别任务中处于领先地位,有可能利用DVS的优势,但为了有效应用于这些相机,仍需进行一些适应性调整。本研究首次引入了使用此类数据进行语义分割的基线模型。我们构建了一个基于最先进技术的语义分割卷积神经网络(CNN),该网络仅以事件信息作为输入。此外,我们提出了一种新的DVS数据表示方法,该方法在相关任务中优于之前使用的事件表示方法。由于目前尚无针对此任务的标注数据集,我们提出了如何为DDD17数据集中的一些序列自动生成近似的语义分割标签,并与模型一同发布。实验结果表明,这些标签可用于仅使用DVS数据训练模型。我们将使用DVS数据进行语义分割的结果与使用相应灰度图像的结果进行了比较,证明了它们之间的互补性以及结合使用的价值。