15 天前
房间里的DINO:利用2D基础模型进行3D分割
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe

摘要
基于大规模图像数据集训练的视觉基础模型(Vision Foundation Models, VFMs)能够提取高质量的特征,显著推动了二维视觉识别的发展。然而,尽管二维图像与三维点云数据集通常同时可用,VFMs在三维视觉领域的潜力仍远未被充分挖掘。尽管已有大量研究致力于二维与三维信息的融合,但当前最先进的三维视觉方法仍主要聚焦于三维数据本身,对将视觉基础模型融入三维模型的研究仍显不足。针对这一现状,本文提出DITR——一种简洁而高效的方法:该方法首先从二维基础模型中提取特征,将其投影至三维空间,并最终注入三维点云分割模型中。实验结果表明,DITR在室内与室外三维语义分割基准测试中均取得了当前最优性能。为进一步提升模型在推理阶段无可用图像时的适用性,我们进一步提出一种蒸馏策略:将二维基础模型的知识蒸馏至三维主干网络中,作为预训练任务。通过利用从二维VFMs中蒸馏得到的知识初始化三维主干网络,我们为下游三维分割任务构建了一个强大的模型基础,显著提升了在多个数据集上的整体性能。