HyperAIHyperAI

Command Palette

Search for a command to run...

房间里的DINO:利用2D基础模型进行3D分割

Karim Abou Zeid Kadir Yilmaz Daan de Geus Alexander Hermans David Adrian Timm Linder Bastian Leibe

摘要

基于大规模图像数据集训练的视觉基础模型(Vision Foundation Models, VFMs)能够提取高质量的特征,显著推动了二维视觉识别的发展。然而,尽管二维图像与三维点云数据集通常同时可用,VFMs在三维视觉领域的潜力仍远未被充分挖掘。尽管已有大量研究致力于二维与三维信息的融合,但当前最先进的三维视觉方法仍主要聚焦于三维数据本身,对将视觉基础模型融入三维模型的研究仍显不足。针对这一现状,本文提出DITR——一种简洁而高效的方法:该方法首先从二维基础模型中提取特征,将其投影至三维空间,并最终注入三维点云分割模型中。实验结果表明,DITR在室内与室外三维语义分割基准测试中均取得了当前最优性能。为进一步提升模型在推理阶段无可用图像时的适用性,我们进一步提出一种蒸馏策略:将二维基础模型的知识蒸馏至三维主干网络中,作为预训练任务。通过利用从二维VFMs中蒸馏得到的知识初始化三维主干网络,我们为下游三维分割任务构建了一个强大的模型基础,显著提升了在多个数据集上的整体性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供