
摘要
近期在视频实例分割(VIS)领域的进展主要得益于使用了更深且对数据需求更高的基于变压器的模型。然而,视频掩码的标注工作既繁琐又昂贵,限制了现有VIS数据集的规模和多样性。在这项工作中,我们的目标是消除掩码标注的需求。我们提出了MaskFreeVIS方法,在仅使用目标状态的边界框标注的情况下,实现了具有竞争力的VIS性能。通过引入时间K近邻补丁损失(Temporal KNN-patch Loss,简称TK-Loss),我们充分利用了视频中丰富的时序掩码一致性约束,从而在无需任何标签的情况下提供强大的掩码监督。我们的TK-Loss通过一个高效的补丁匹配步骤,随后进行K近邻选择,实现帧间的一对多匹配。然后,在找到的匹配上施加一致性损失。我们的无掩码目标简单易实现,没有可训练参数,计算效率高,但其性能却超过了基线方法,例如使用最先进的光流技术来强制时序掩码一致性的方法。我们在YouTube-VIS 2019/2021、OVIS和BDD100K MOTS基准上验证了MaskFreeVIS的有效性。结果清楚地表明,我们的方法显著缩小了全监督和弱监督VIS性能之间的差距。我们的代码和预训练模型可在https://github.com/SysCV/MaskFreeVis获取。