6 个月前

摘要

近年来，长视频中复杂且存在遮挡的序列处理已成为视频实例分割（Video Instance Segmentation, VIS）领域面临的一项新挑战。然而，现有方法在应对这一挑战时仍存在明显局限。我们认为，当前方法最大的瓶颈在于训练与推理阶段之间的不一致性。为有效弥合这一差距，本文提出一种通用的VIS框架——GenVIS，该框架在无需设计复杂网络结构或额外后处理的情况下，即可在具有挑战性的基准测试中实现当前最优性能。GenVIS的核心贡献在于其创新的学习策略，包括一种基于查询的训练流程，用于实现序列化学习，并引入了一种新颖的目标标签分配机制。此外，我们还设计了一种记忆模块，能够有效获取并利用先前帧的状态信息。得益于这一新视角——即聚焦于分离帧或片段之间的关联建模，GenVIS可灵活地以在线（online）或半在线（semi-online）方式运行。我们在多个主流VIS基准数据集上对所提方法进行了评估，在YouTube-VIS 2019/2021/2022以及遮挡视频实例分割（Occluded VIS, OVIS）数据集上均取得了当前最优结果。尤为突出的是，在长视频VIS基准（OVIS）上，GenVIS相较现有最先进方法实现了显著提升，使用ResNet-50主干网络时，平均精度（AP）提升达5.6个百分点。代码已开源，地址为：https://github.com/miranheo/GenVIS。

源 PDF