
摘要
近年来,基于Transformer的方法在视频实例分割(Video Instance Segmentation, VIS)任务中取得了令人瞩目的成果。然而,大多数表现优异的方法均采用离线处理方式,即一次性处理整个视频片段以预测实例掩码序列,这使得它们难以应对UVO和OVIS等新型挑战性数据集中常见的长视频。为此,我们提出了一种完全在线的基于Transformer的视频实例分割模型——鲁棒在线视频分割(Robust Online Video Segmentation, ROVIS)。该模型在YouTube-VIS 2019基准测试中性能可与顶尖离线方法相媲美,并在UVO和OVIS数据集上显著超越现有方法。ROVIS在Mask2Former图像实例分割模型的基础上引入了“跟踪查询”(track queries)机制,这是一种轻量级的帧间轨迹信息传递方式,最初由TrackFormer方法为多目标跟踪任务提出。我们证明,当与足够强大的图像分割架构相结合时,跟踪查询能够在不局限于短视频的前提下,实现出色的分割精度。