3 个月前

MV-DETR:基于多视角检测Transformer的多模态室内物体检测

Zichao Dong, Yilin Zhang, Xufeng Huang, Hang Ji, Zhan Shi, Xin Zhan, Junbo Chen
MV-DETR:基于多视角检测Transformer的多模态室内物体检测
摘要

我们提出了一种新颖的MV-DETR检测流水线,该方法在保持高效性的同时,基于Transformer实现了出色的检测性能。在处理输入的RGBD数据时,我们观察到:针对RGB数据存在极为强大的预训练权重,而针对深度数据的预训练效果则相对有限。首先,我们强调几何信息与纹理信息均至关重要,且可分别进行编码。其次,我们发现相较于几何特征,三维空间中的视觉纹理特征更难提取。遗憾的是,仅依靠包含数千个样本的单一RGBD数据集,难以训练出能够有效提取视觉纹理特征的判别性滤波器。最后,我们设计了一个轻量级的视觉-几何(VG)模块,该模块由视觉文本编码器、几何编码器以及视觉-几何连接器三部分组成。与先前的最先进方法(如V-DETR)相比,我们的方法显著受益于预训练视觉编码器的特征表示能力。在ScanNetV2数据集上的大量实验验证了所提方法的有效性。值得特别指出的是,我们的方法在ScanNetV2基准测试中取得了78%的AP(平均精度),刷新了该数据集上的最新性能纪录,达到了新的最先进水平。