
摘要
在高动态范围(HDR)和高速条件下,由于图像严重退化,基于图像的算法仍难以准确获取语义信息,这一问题尚未得到解决。事件相机(event camera)有望克服上述挑战,因其具备更高的动态范围,并对运动模糊具有较强的鲁棒性。然而,基于事件相机的语义分割技术仍处于发展初期,其主要瓶颈在于缺乏高质量、带标注的数据集。为此,本文提出 ESS(Event-based Semantic Segmentation),通过无监督域自适应(Unsupervised Domain Adaptation, UDA)方法,直接将现有带标注图像数据集中的语义分割任务迁移到无标注事件数据上,从而解决数据匮乏问题。与现有UDA方法相比,本方法通过将具有时序递归特性和运动不变性的事件嵌入(event embeddings)与图像嵌入进行对齐,实现了更有效的跨模态学习。因此,该方法无需视频数据,也不需要图像与事件之间的逐像素对齐,最关键的是,无需从静态图像中“幻觉”生成运动信息。此外,本文还构建了首个大规模、细粒度标注的事件数据集——DSEC-Semantic,为事件相机的语义分割研究提供了重要资源。实验结果表明,仅使用图像标签,ESS在性能上已超越现有UDA方法;当结合事件标签时,其在DDD17和DSEC-Semantic两个基准数据集上的表现甚至优于当前最先进的监督学习方法。更重要的是,ESS具有通用性,能够充分挖掘海量已有的带标注图像数据集,为事件相机在以往难以应用的新领域开启一系列全新的研究方向,推动该技术的广泛应用与深入发展。