
摘要
我们提出 MinVIS,一种极简的视频实例分割(Video Instance Segmentation, VIS)框架,在无需依赖视频专用架构或训练流程的情况下,实现了当前最优的 VIS 性能。通过仅训练一个基于查询的图像实例分割模型,MinVIS 在具有挑战性的遮挡视频实例分割(Occluded VIS)数据集上的表现优于此前最佳结果超过 10% 的 AP(平均精度)。由于 MinVIS 在训练过程中将视频帧视为独立图像,因此无需任何修改即可大幅降低标注帧的采样比例。仅使用 1% 的标注帧,MinVIS 在 YouTube-VIS 2019 和 2021 数据集上的性能即可超越或媲美完全监督的当前最优方法。我们的核心观察是:那些在帧内被训练为区分不同目标实例的查询,在时间维度上具有高度一致性,因而可直接用于实例追踪,而无需依赖人工设计的启发式规则。基于此,MinVIS 的推理流程如下:首先,将训练好的基于查询的图像实例分割模型独立应用于每一视频帧;随后,通过对应查询之间的二分图匹配实现实例追踪。该推理过程为在线处理方式,无需一次性处理整段视频。因此,MinVIS 在显著降低标注成本与内存需求的同时,保持了卓越的视频实例分割性能,具备良好的实际应用价值。代码已开源,地址为:https://github.com/NVlabs/MinVIS