
摘要
分割高度重叠的图像对象是一项挑战,因为通常在图像中无法区分真实物体轮廓和遮挡边界。与以往的实例分割方法不同,我们将图像形成过程建模为两个重叠层的组合,并提出了双层卷积网络(Bilayer Convolutional Network, BCNet),其中顶层检测遮挡物体(occluders),底层推断部分被遮挡的实例(occludees)。通过双层结构显式建模遮挡关系,可以自然地解耦遮挡物和被遮挡物的边界,并在掩码回归过程中考虑它们之间的相互作用。我们使用两种流行的卷积网络设计——全卷积网络(Fully Convolutional Network, FCN)和图卷积网络(Graph Convolutional Network, GCN)来研究双层结构的有效性。此外,我们通过将图像中的实例表示为独立可学习的遮挡物和被遮挡物查询,利用视觉变换器(Vision Transformer, ViT)对双层解耦进行公式化。大量且一致的改进表明,无论使用一阶段/两阶段目标检测器还是基于查询的目标检测器,并且无论选择何种骨干网络和网络层配置,双层解耦都具有良好的泛化能力。这一点在多个图像实例分割基准数据集(COCO、KINS、COCOA)和视频实例分割基准数据集(YTVIS、OVIS、BDD100K MOTS)上的广泛实验中得到了验证,尤其是在严重遮挡的情况下。代码和数据可在以下地址获取:https://github.com/lkeab/BCNet。