Command Palette
Search for a command to run...
OpenShape:面向开放世界的3D形状表示扩展
OpenShape:面向开放世界的3D形状表示扩展
Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao
摘要
我们介绍了OpenShape,这是一种学习文本、图像和点云多模态联合表示的方法。我们采用了常用的多模态对比学习框架来进行表示对齐,但特别关注于扩展3D表示,以实现开放世界的3D形状理解。为了达到这一目标,我们通过组合多个3D数据集来扩大训练数据,并提出了一些自动过滤和丰富噪声文本描述的策略。此外,我们探索并比较了扩展3D骨干网络的策略,并引入了一种新的困难负样本挖掘模块(hard negative mining module),以提高训练效率。我们在零样本3D分类基准上评估了OpenShape,并展示了其在开放世界识别方面的卓越能力。具体而言,OpenShape在1,156类别的Objaverse-LVIS基准上实现了46.8%的零样本准确率,而现有方法的准确率不到10%。OpenShape在ModelNet40上的准确率为85.3%,比之前的零样本基线方法高出20%,并且与某些全监督方法的表现相当。此外,我们还表明所学的嵌入编码了广泛的视觉和语义概念(如子类别、颜色、形状、风格),并促进了细粒度的文本-3D和图像-3D交互。由于与CLIP嵌入对齐,我们的所学形状表示还可以与现成的基于CLIP的模型集成,用于各种应用,例如点云描述生成和条件点云图像生成。