
摘要
我们提出一种三维实例表示方法,称为实例核(instance kernels),其中每个实例由一维向量表示,该向量编码了三维实例的语义、位置及形状信息。实验表明,通过在整场景中简单扫描实例核,即可实现高效的掩码推断,从而避免了传统三维实例分割流程中对候选框(proposals)或启发式聚类算法的过度依赖。实例核的思想受到二维/三维实例分割中动态卷积(dynamic convolutions)近期成功应用的启发。然而,由于点云数据具有无序且非结构化的特性,如何有效表示三维实例仍面临挑战,例如实例定位不准确会显著降低表示质量。为解决这一问题,我们设计了一种新颖的三维实例编码范式:首先,定位潜在的实例中心点作为候选;随后,提出一种候选点合并机制,能够同时聚合重复的候选点,并在合并后的中心点周围收集上下文信息,从而生成实例核。一旦获得实例核,即可通过以实例核为条件的动态卷积实现实例掩码的重建。整个流程基于动态核网络(Dynamic Kernel Network, DKNet)实现。实验结果表明,DKNet在ScanNetV2和S3DIS两个数据集上均超越现有最先进方法,且在实例定位精度方面表现更优。代码已开源:https://github.com/W1zheng/DKNet。