17 天前
一种通用的视频实例分割框架
Miran Heo, Sukjun Hwang, Jeongseok Hyun, Hanjung Kim, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim

摘要
近年来,长视频中复杂且存在遮挡的序列处理已成为视频实例分割(Video Instance Segmentation, VIS)领域面临的一项新挑战。然而,现有方法在应对这一挑战时仍存在明显局限。我们认为,当前方法最大的瓶颈在于训练与推理阶段之间的不一致性。为有效弥合这一差距,本文提出一种通用的VIS框架——GenVIS,该框架在无需设计复杂网络结构或额外后处理的情况下,即可在具有挑战性的基准测试中实现当前最优性能。GenVIS的核心贡献在于其创新的学习策略,包括一种基于查询的训练流程,用于实现序列化学习,并引入了一种新颖的目标标签分配机制。此外,我们还设计了一种记忆模块,能够有效获取并利用先前帧的状态信息。得益于这一新视角——即聚焦于分离帧或片段之间的关联建模,GenVIS可灵活地以在线(online)或半在线(semi-online)方式运行。我们在多个主流VIS基准数据集上对所提方法进行了评估,在YouTube-VIS 2019/2021/2022以及遮挡视频实例分割(Occluded VIS, OVIS)数据集上均取得了当前最优结果。尤为突出的是,在长视频VIS基准(OVIS)上,GenVIS相较现有最先进方法实现了显著提升,使用ResNet-50主干网络时,平均精度(AP)提升达5.6个百分点。代码已开源,地址为:https://github.com/miranheo/GenVIS。