8 个月前

机器视觉 3D

计算机视觉

Ayça Takmaz Elisabetta Fedele Robert W. Sumner Marc Pollefeys Federico Tombari Francis Engelmann

摘要

我们介绍了开放词汇3D实例分割的任务。目前的3D实例分割方法通常只能识别训练数据集中注释的预定义封闭类别的对象。这在实际应用中带来了重要限制，因为在现实世界中，可能需要根据与各种对象相关的新型、开放词汇查询来执行任务。最近，出现了一些开放词汇3D场景理解方法，通过学习每个场景点的可查询特征来解决这一问题。虽然这种表示可以直接用于进行语义分割，但现有的方法无法区分多个对象实例。在这项工作中，我们解决了这一限制，并提出了OpenMask3D，这是一种针对开放词汇3D实例分割的零样本方法。在预测的类别无关3D实例掩码的引导下，我们的模型通过多视图融合CLIP（基于图像嵌入）的方法聚合每掩码特征。在ScanNet200和Replica上的实验和消融研究表明，OpenMask3D优于其他开放词汇方法，特别是在长尾分布上表现突出。定性实验进一步展示了OpenMask3D根据描述几何形状、功能性和材料的自由形式查询来分割对象属性的能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

机器视觉 3D

计算机视觉

Ayça Takmaz Elisabetta Fedele Robert W. Sumner Marc Pollefeys Federico Tombari Francis Engelmann

摘要

我们介绍了开放词汇3D实例分割的任务。目前的3D实例分割方法通常只能识别训练数据集中注释的预定义封闭类别的对象。这在实际应用中带来了重要限制，因为在现实世界中，可能需要根据与各种对象相关的新型、开放词汇查询来执行任务。最近，出现了一些开放词汇3D场景理解方法，通过学习每个场景点的可查询特征来解决这一问题。虽然这种表示可以直接用于进行语义分割，但现有的方法无法区分多个对象实例。在这项工作中，我们解决了这一限制，并提出了OpenMask3D，这是一种针对开放词汇3D实例分割的零样本方法。在预测的类别无关3D实例掩码的引导下，我们的模型通过多视图融合CLIP（基于图像嵌入）的方法聚合每掩码特征。在ScanNet200和Replica上的实验和消融研究表明，OpenMask3D优于其他开放词汇方法，特别是在长尾分布上表现突出。定性实验进一步展示了OpenMask3D根据描述几何形状、功能性和材料的自由形式查询来分割对象属性的能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供