6 个月前

计算机视觉

计算机视觉

Karim Abou Zeid Kadir Yilmaz Daan de Geus Alexander Hermans David Adrian Timm Linder Bastian Leibe

摘要

基于大规模图像数据集训练的视觉基础模型（Vision Foundation Models, VFMs）能够提取高质量的特征，显著推动了二维视觉识别的发展。然而，尽管二维图像与三维点云数据集通常同时可用，VFMs在三维视觉领域的潜力仍远未被充分挖掘。尽管已有大量研究致力于二维与三维信息的融合，但当前最先进的三维视觉方法仍主要聚焦于三维数据本身，对将视觉基础模型融入三维模型的研究仍显不足。针对这一现状，本文提出DITR——一种简洁而高效的方法：该方法首先从二维基础模型中提取特征，将其投影至三维空间，并最终注入三维点云分割模型中。实验结果表明，DITR在室内与室外三维语义分割基准测试中均取得了当前最优性能。为进一步提升模型在推理阶段无可用图像时的适用性，我们进一步提出一种蒸馏策略：将二维基础模型的知识蒸馏至三维主干网络中，作为预训练任务。通过利用从二维VFMs中蒸馏得到的知识初始化三维主干网络，我们为下游三维分割任务构建了一个强大的模型基础，显著提升了在多个数据集上的整体性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Karim Abou Zeid Kadir Yilmaz Daan de Geus Alexander Hermans David Adrian Timm Linder Bastian Leibe

摘要

基于大规模图像数据集训练的视觉基础模型（Vision Foundation Models, VFMs）能够提取高质量的特征，显著推动了二维视觉识别的发展。然而，尽管二维图像与三维点云数据集通常同时可用，VFMs在三维视觉领域的潜力仍远未被充分挖掘。尽管已有大量研究致力于二维与三维信息的融合，但当前最先进的三维视觉方法仍主要聚焦于三维数据本身，对将视觉基础模型融入三维模型的研究仍显不足。针对这一现状，本文提出DITR——一种简洁而高效的方法：该方法首先从二维基础模型中提取特征，将其投影至三维空间，并最终注入三维点云分割模型中。实验结果表明，DITR在室内与室外三维语义分割基准测试中均取得了当前最优性能。为进一步提升模型在推理阶段无可用图像时的适用性，我们进一步提出一种蒸馏策略：将二维基础模型的知识蒸馏至三维主干网络中，作为预训练任务。通过利用从二维VFMs中蒸馏得到的知识初始化三维主干网络，我们为下游三维分割任务构建了一个强大的模型基础，显著提升了在多个数据集上的整体性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供