2 个月前
OpenIns3D:面向开放词汇的3D实例分割的捕捉与查找
Huang, Zhening ; Wu, Xiaoyang ; Chen, Xi ; Zhao, Hengshuang ; Zhu, Lei ; Lasenby, Joan

摘要
在这项工作中,我们介绍了OpenIns3D,这是一种新的仅以3D输入为基础的框架,用于3D开放词汇场景理解。OpenIns3D框架采用了“Mask-Snap-Lookup”方案。其中,“Mask”模块在3D点云中学习类别无关的掩码提议,“Snap”模块生成多尺度的合成场景级图像,并利用2D视觉-语言模型提取感兴趣的对象,“Lookup”模块则通过搜索“Snap”的结果来为提议的掩码分配类别名称。尽管该方法简单,但在包括识别、物体检测和实例分割在内的广泛3D开放词汇任务中,无论是在室内还是室外数据集上,均达到了最先进的性能。此外,OpenIns3D支持在不同2D检测器之间轻松切换而无需重新训练。当与强大的2D开放世界模型结合时,它在场景理解任务中取得了优异的结果。进一步地,当与基于大型语言模型(LLM)的2D模型结合时,OpenIns3D展示了令人印象深刻的处理复杂文本查询的能力,这些查询需要复杂的推理和现实世界的知识。项目页面:https://zheninghuang.github.io/OpenIns3D/