8 个月前

多模态表征

计算机视觉

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

摘要

开放词汇场景理解旨在定位和识别超出已注释标签空间的未见过类别。近期2D开放词汇感知领域的突破主要得益于互联网规模的图像-文本配对数据，这些数据包含丰富的词汇概念。然而，由于缺乏大规模的3D-文本配对数据，这一成功无法直接转移到3D场景中。为此，我们提出通过从3D多视角图像生成描述来提取预训练视觉-语言（VL）基础模型中的知识，这使得3D场景与语义丰富的描述之间可以显式关联。此外，为了促进从描述中进行粗到细的视觉-语义表示学习，我们设计了层次化的3D-描述对，并利用3D场景与多视角图像之间的几何约束。最后，通过采用对比学习方法，模型学会了语言感知的嵌入向量，从而在开放词汇任务中连接3D和文本。我们的方法不仅在开放词汇语义分割和实例分割任务上显著优于基线方法，hIoU提高了25.8%~44.7%，hAP $_{50}$ 提高了14.5%~50.4%，还在具有挑战性的零样本域迁移任务上表现出强大的可迁移性。项目网站见：https://dingry.github.io/projects/PLA。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

摘要

开放词汇场景理解旨在定位和识别超出已注释标签空间的未见过类别。近期2D开放词汇感知领域的突破主要得益于互联网规模的图像-文本配对数据，这些数据包含丰富的词汇概念。然而，由于缺乏大规模的3D-文本配对数据，这一成功无法直接转移到3D场景中。为此，我们提出通过从3D多视角图像生成描述来提取预训练视觉-语言（VL）基础模型中的知识，这使得3D场景与语义丰富的描述之间可以显式关联。此外，为了促进从描述中进行粗到细的视觉-语义表示学习，我们设计了层次化的3D-描述对，并利用3D场景与多视角图像之间的几何约束。最后，通过采用对比学习方法，模型学会了语言感知的嵌入向量，从而在开放词汇任务中连接3D和文本。我们的方法不仅在开放词汇语义分割和实例分割任务上显著优于基线方法，hIoU提高了25.8%~44.7%，hAP $_{50}$ 提高了14.5%~50.4%，还在具有挑战性的零样本域迁移任务上表现出强大的可迁移性。项目网站见：https://dingry.github.io/projects/PLA。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供