摘要

视频实例分割（Video Instance Segmentation, VIS）是一项需要在视频中同时完成分类、分割与实例关联的任务。现有的VIS方法通常依赖于复杂的处理流程，包括与区域提议（RoI）相关的操作或三维卷积等技术。相比之下，本文提出了一种简单且高效的单阶段VIS框架，该框架基于实例分割方法CondInst，并额外引入一个跟踪头（tracking head）。为提升实例关联的准确性，我们提出了一种新颖的双向时空对比学习策略，用于跨帧的跟踪嵌入学习。此外，还采用了一种实例级的时间一致性机制，以生成在时间上连贯的分割结果。在YouTube-VIS-2019、YouTube-VIS-2021以及OVIS-2021等多个数据集上的实验结果验证了所提方法的有效性与高效性。我们期望该框架能够为众多其他实例级视频关联任务提供一种简洁而强大的替代方案。

源 PDF