2 个月前

DFormer:重新思考RGBD表征学习以用于语义分割

Bowen Yin; Xuying Zhang; Zhongyu Li; Li Liu; Ming-Ming Cheng; Qibin Hou
DFormer:重新思考RGBD表征学习以用于语义分割
摘要

我们介绍了DFormer,这是一种新颖的RGB-D预训练框架,用于学习可迁移的表示以应用于RGB-D分割任务。DFormer具有两项关键创新:1)与以往通过RGB预训练骨干网络编码RGB-D信息的方法不同,我们使用ImageNet-1K中的图像-深度对来预训练骨干网络,从而使DFormer具备了编码RGB-D表示的能力;2)DFormer包含一系列专门设计的RGB-D模块,这些模块通过一种新的构建块设计来同时编码RGB和深度信息。DFormer避免了现有方法中普遍存在的问题,即使用RGB预训练骨干网络时深度图中的3D几何关系编码不匹配的问题,而这一问题在现有方法中尚未得到解决。我们在两个流行的RGB-D任务上对预训练的DFormer进行了微调,即RGB-D语义分割和RGB-D显著目标检测,并采用了轻量级解码器头。实验结果表明,我们的DFormer在这两个任务上均实现了新的最先进性能,并且在两个RGB-D语义分割数据集和五个RGB-D显著目标检测数据集上的计算成本不到当前最佳方法的一半。我们的代码可在以下地址获取:https://github.com/VCIP-RGBD/DFormer。

DFormer:重新思考RGBD表征学习以用于语义分割 | 最新论文 | HyperAI超神经