6 个月前

摘要

在图像和视频数据集中实现无需人工标注的物体分割是一项极具挑战性的任务。人类能够轻松利用“共同命运”（common fate）的格式塔原理，在视频中识别出运动的显著物体，该原理认为“一同运动的物体属于同一整体”。基于这一认知机制，我们提出了一种自监督物体发现方法——LOCATE，该方法融合运动信息与外观信息，生成高质量的物体分割掩码。具体而言，我们对传统的图像图割（graph cut）算法进行了重构，将运动信息与外观信息以线性组合的方式融合，用于计算边权重，从而实现更精确的分割。令人瞩目的是，该步骤在多个基准测试上生成的分割结果已达到当前最先进水平。为进一步提升性能，我们采用一种自训练策略：利用初步生成的分割掩码作为伪真值（pseudo-ground truth），训练一个分割网络，使其从自身的输出中持续学习。我们在多个标准视频物体分割、图像显著性检测及物体分割基准上验证了LOCATE方法的有效性，实验结果与当前最先进方法相当，且在多数场景下实现超越。此外，我们通过在真实场景图像上的定性分析，展示了该方法在新领域中的良好迁移能力。最后，我们进行了详尽的消融实验，验证了方法中各组件设计的合理性，并量化了每一模块对整体性能的贡献。

源 PDF