
摘要
我们研究无监督视频目标分割(Unsupervised Video Object Segmentation, UVOS),即在无需任何关于应追踪目标的先验信息的情况下,自动为视频序列中显著目标生成精确的像素级掩码,并实现这些目标在时间维度上的持续稳定追踪。为解决该任务,我们提出一种简洁且通用的算法——UnOVOST(Unsupervised Offline Video Object Segmentation and Tracking),该算法能够有效追踪并分割多种类型的目标。UnOVOST 采用分阶段建模策略:首先将分割结果聚类为时空一致的短时轨迹片段(tracklets),随后基于视觉相似性将这些短轨迹合并为长期一致的目标轨迹。为实现这一过程,我们引入了一种新型基于轨迹片段的“森林路径切割”(Forest Path Cutting)数据关联算法。该算法先构建一个包含多种轨迹假设的决策森林,再通过切割该森林生成构成长期一致目标轨迹的路径。在 DAVIS 2017 无监督数据集上的实验表明,我们的方法取得了当前最优的性能:在验证集(val)上达到 67.9% 的平均 J&F 分数,在测试开发集(test-dev)上为 58%,在测试挑战集(test-challenge)上为 56.4%,并荣获 DAVIS 2019 无监督视频目标分割挑战赛第一名。值得注意的是,尽管 UnOVOST 完全未接收任何关于目标身份的输入信息,其性能仍可与许多半监督视频目标分割算法相媲美,展现出强大的泛化能力与鲁棒性。