
摘要
我们提出了一种统一的指代性视频目标分割网络(Unified Referring Video Object Segmentation, URVOS)。URVOS以视频和指代表达式作为输入,能够在整个视频帧中估计出由给定语言表达所指代的{目标掩码}。为解决这一具有挑战性的问题,我们的算法通过一个单一的深度神经网络,结合两种注意力机制的合理设计,实现了基于语言的目标分割与掩码传播的联合建模。此外,我们构建了首个大规模指代性视频目标分割数据集——Refer-Youtube-VOS。我们在两个基准数据集(包括我们自建的数据集)上对模型进行了评估,充分验证了所提方法的有效性。该数据集已公开发布于:https://github.com/skynbe/Refer-Youtube-VOS。