
摘要
我们提出了一种针对密集3D体素网格实例标签分割的新方法。该方法适用于通过深度传感器或多视图立体方法获取并经过语义3D重建或场景补全方法处理的体积场景表示。主要任务是学习关于单个物体实例的形状信息,以准确地分离它们,包括连接在一起和扫描不完全的物体。我们采用多任务学习策略来解决3D实例标签问题。第一个目标是学习一种抽象特征嵌入,使得具有相同实例标签的体素相互靠近,而不同实例标签的簇则相互分离。第二个目标是通过密集估计每个体素相对于其实例质心的方向信息来学习实例信息。这在聚类后处理步骤中特别有用,可以用于寻找实例边界以及评估第一个目标的分割质量。合成数据和真实世界实验均证明了我们方法的有效性和优势。事实上,该方法在ScanNet 3D实例分割基准测试中达到了最先进的性能。