3 个月前

基于扩散模型的RGB-D语义分割方法:可变形注意力Transformer

Minh Bui, Kostas Alexis
基于扩散模型的RGB-D语义分割方法:可变形注意力Transformer
摘要

基于视觉的感知与推理对于任何自主系统中的场景理解都至关重要。RGB图像与深度图像常被用于捕捉环境的语义特征与几何特征。在实际应用中,由于测量噪声难以避免,开发能够可靠解析此类数据的方法尤为关键。本文提出一种基于扩散模型的框架,以解决RGB-D语义分割问题。此外,我们验证了采用可变形注意力Transformer作为编码器从深度图像中提取特征,能够有效捕捉深度测量中无效区域的特性。所提出的生成式框架在建模RGB-D图像潜在分布方面展现出更强的能力,在复杂场景下表现出优异的鲁棒性,且相较于判别式方法,显著减少了训练时间。实验结果表明,我们的方法在NYUv2与SUN-RGBD两个数据集上均达到了当前最优(SOTA)性能,尤其在最具挑战性的图像数据上表现突出。项目主页将发布于:https://diffusionmms.github.io/