2 个月前
任意模态语义分割
Jiaming Zhang; Ruiping Liu; Hao Shi; Kailun Yang; Simon Reiß; Kunyu Peng; Haodong Fu; Kaiwei Wang; Rainer Stiefelhagen

摘要
多模态融合可以使语义分割更加鲁棒。然而,融合任意数量的模态仍然是一个未充分探索的问题。为了深入研究这一问题,我们创建了DeLiVER任意模态分割基准数据集,涵盖了深度(Depth)、激光雷达(LiDAR)、多视图(multiple Views)、事件(Events)和RGB图像。此外,我们还提供了四种恶劣天气条件和五种传感器故障情况下的数据集,以利用模态互补性和解决部分故障问题。为实现这一目标,我们提出了任意跨模态分割模型CMNeXt。该模型包含一个自查询中心(Self-Query Hub, SQ-Hub),旨在从任何模态中提取有效信息,以便后续与RGB表示进行融合,并且每增加一种模态仅需添加微不足道的参数量(约0.01M)。此外,为了高效灵活地从辅助模态中获取判别特征,我们引入了一种简单的并行池化混合器(Parallel Pooling Mixer, PPX)。通过在总共六个基准数据集上的广泛实验,我们的CMNeXt在DeLiVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF和MCubeS数据集上均取得了最先进的性能,支持从1到81个模态的扩展。在新收集的DeLiVER数据集中,四模态CMNeXt达到了66.30%的mIoU值,相比单模态基线提高了9.10%。DeLiVER数据集和我们的代码可访问:https://jamycheung.github.io/DELIVER.html。