2 个月前

Lowis3D:语言驱动的开放世界实例级3D场景理解

Ding, Runyu ; Yang, Jihan ; Xue, Chuhui ; Zhang, Wenqing ; Bai, Song ; Qi, Xiaojuan
Lowis3D:语言驱动的开放世界实例级3D场景理解
摘要

开放世界实例级场景理解旨在定位和识别未在标注数据集中出现的物体类别。这一任务具有挑战性,因为模型需要同时对新颖的三维物体进行定位并推断其语义类别。近年来,2D开放世界感知取得进展的关键因素在于互联网上大规模图像-文本对的可用性,这些数据覆盖了广泛的词汇概念。然而,由于三维-文本对的稀缺性,这种成功难以在三维场景中复制。为了解决这一挑战,我们提出利用预训练的视觉-语言(VL)基础模型,该模型从图像-文本对中编码了大量知识,以生成三维场景多视图图像的标题。这使得我们能够在三维形状和语义丰富的标题之间建立明确的关联。此外,为了增强从标题中学习细粒度视觉-语义表示的能力以实现对象级别的分类,我们设计了层次化的点-标题关联方法来学习利用三维点与多视图图像之间的3D几何关系的语义感知嵌入。另外,为了应对开放世界设定下新型类别的定位挑战,我们开发了无偏实例定位技术,该技术涉及使用实例级别的伪监督在未标注数据上训练对象分组模块。这显著提高了实例分组的泛化能力,从而增强了准确定位新奇物体的能力。我们在涵盖室内和室外场景的三个数据集上进行了广泛的实验,涉及3D语义分割、实例分割和全景分割任务。我们的方法在语义分割(例如34.5%~65.3%)、实例分割(例如21.8%~54.0%)和全景分割(例如14.7%~43.3%)方面显著优于基线方法。代码将公开发布。

Lowis3D:语言驱动的开放世界实例级3D场景理解 | 最新论文 | HyperAI超神经