
摘要
我们提出了一种用于3D实例分割的交互式方法,用户可以与深度学习模型进行迭代合作,直接在3D点云中分割对象。目前的3D实例分割方法通常以完全监督的方式进行训练,这需要大量的昂贵训练标签,并且对训练过程中未见过的类别泛化能力较差。尽管有少数研究尝试通过人类交互获取3D分割掩模,但现有的方法依赖于2D图像域中的用户反馈。因此,用户需要不断在2D图像和3D表示之间切换,并且需要定制架构来结合多种输入模态。这导致与现有标准3D模型的集成并不直接。本工作的核心思想是使用户能够直接与3D点云互动,通过点击感兴趣的3D对象(或其背景)在开放世界环境中交互式地分割场景。具体而言,我们的方法不需要任何目标领域的训练数据,并且可以在没有适当训练集的新环境中适应。系统根据用户的反馈连续调整对象分割,并以最少的人工干预(每个对象只需几次点击)实现精确的密集3D分割掩模。除了其在大规模和多样化3D数据集高效标注方面的潜力外,我们的方法还允许用户直接与3D环境互动,从而为增强现实/虚拟现实(AR/VR)和人机交互开辟了新的应用前景。