17 天前

基于多模态球面图像的单帧语义分割

Suresh Guttikonda, Jason Rambach
基于多模态球面图像的单帧语义分割
摘要

近年来,研究界对全景图像表现出浓厚兴趣,因其能够提供360度全方位的视角信息。通过融合多种数据模态,可充分利用各模态的互补特性,基于语义分割实现更鲁棒、更丰富的场景理解,从而充分挖掘其潜力。然而,现有研究大多集中于针孔相机模型下的RGB-X语义分割任务。在本研究中,我们提出一种基于Transformer的跨模态融合架构,旨在弥合多模态融合与全向场景感知之间的差距。为应对等距柱状投影(equirectangular representation)带来的极端物体形变与全景畸变问题,我们引入了畸变感知模块。此外,在特征融合前,我们设计了跨模态交互机制,用于特征校正与信息交换,以实现双模态与三模态特征流之间的长距离上下文信息传递。在三个室内全景数据集上,我们对四种不同模态组合进行了全面测试,结果表明,本方法在mIoU指标上达到当前最优性能:在Stanford2D3DS(RGB-HHA)数据集上达到60.60%,在Structured3D(RGB-D-N)数据集上达到71.97%,在Matterport3D(RGB-D)数据集上达到35.92%。相关代码与训练好的模型即将开源。