
摘要
基于视觉外观识别材料对于计算机视觉任务至关重要,尤其是在涉及与现实世界交互的应用中。材料分割(即密集的逐像素材料识别)仍面临挑战,因为与物体不同,材料在常规的RGB图像中通常缺乏清晰可辨的视觉特征。然而,不同材料会表现出不同的辐射特性,这些特性往往可通过非RGB成像模态加以捕捉。本文实现了基于RGB、偏振和近红外图像的多模态材料分割。为此,我们构建了MCubeS数据集(全称为多模态材料分割数据集),该数据集包含500组多模态图像,覆盖42个街景场景。每幅图像均标注了像素级的真实材料分割结果以及语义分割标签。此外,我们提出了一种新型深度神经网络MCubeSNet,其通过一种新设计的区域引导滤波选择(Region-Guided Filter Selection, RGFS)层,自动学习针对每一类材料最具信息量的成像模态组合。该网络利用语义分割结果作为先验信息,指导滤波器的选择过程。据我们所知,本工作是首个关于真正意义上的多模态材料分割的综合性研究。我们认为,本研究为材料信息在安全关键应用中的实际落地开辟了新的路径。