10 个月前

多模态表征

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

摘要

我们介绍了OpenShape，这是一种学习文本、图像和点云多模态联合表示的方法。我们采用了常用的多模态对比学习框架来进行表示对齐，但特别关注于扩展3D表示，以实现开放世界的3D形状理解。为了达到这一目标，我们通过组合多个3D数据集来扩大训练数据，并提出了一些自动过滤和丰富噪声文本描述的策略。此外，我们探索并比较了扩展3D骨干网络的策略，并引入了一种新的困难负样本挖掘模块（hard negative mining module），以提高训练效率。我们在零样本3D分类基准上评估了OpenShape，并展示了其在开放世界识别方面的卓越能力。具体而言，OpenShape在1,156类别的Objaverse-LVIS基准上实现了46.8%的零样本准确率，而现有方法的准确率不到10%。OpenShape在ModelNet40上的准确率为85.3%，比之前的零样本基线方法高出20%，并且与某些全监督方法的表现相当。此外，我们还表明所学的嵌入编码了广泛的视觉和语义概念（如子类别、颜色、形状、风格），并促进了细粒度的文本-3D和图像-3D交互。由于与CLIP嵌入对齐，我们的所学形状表示还可以与现成的基于CLIP的模型集成，用于各种应用，例如点云描述生成和条件点云图像生成。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

10 个月前

多模态表征

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

摘要

我们介绍了OpenShape，这是一种学习文本、图像和点云多模态联合表示的方法。我们采用了常用的多模态对比学习框架来进行表示对齐，但特别关注于扩展3D表示，以实现开放世界的3D形状理解。为了达到这一目标，我们通过组合多个3D数据集来扩大训练数据，并提出了一些自动过滤和丰富噪声文本描述的策略。此外，我们探索并比较了扩展3D骨干网络的策略，并引入了一种新的困难负样本挖掘模块（hard negative mining module），以提高训练效率。我们在零样本3D分类基准上评估了OpenShape，并展示了其在开放世界识别方面的卓越能力。具体而言，OpenShape在1,156类别的Objaverse-LVIS基准上实现了46.8%的零样本准确率，而现有方法的准确率不到10%。OpenShape在ModelNet40上的准确率为85.3%，比之前的零样本基线方法高出20%，并且与某些全监督方法的表现相当。此外，我们还表明所学的嵌入编码了广泛的视觉和语义概念（如子类别、颜色、形状、风格），并促进了细粒度的文本-3D和图像-3D交互。由于与CLIP嵌入对齐，我们的所学形状表示还可以与现成的基于CLIP的模型集成，用于各种应用，例如点云描述生成和条件点云图像生成。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供