
摘要
在视频时代的蓬勃发展背景下,视频分割在多媒体研究社区中吸引了越来越多的关注。半监督视频对象分割(VOS)的目标是在给定参考帧中标注的对象掩码的情况下,对视频中的所有目标帧进行对象分割。现有的大多数方法通过构建像素级的参考-目标关联,然后进行像素级跟踪以获得目标掩码。然而,由于忽视了对象级别的线索,这些基于像素的方法使得跟踪容易受到扰动的影响,甚至无法区分相似的对象。为了实现更稳健的VOS,关键在于校准每个特定对象的表示和掩码,使其具有表达性和辨别性。为此,我们提出了一种新的深度网络,该网络可以自适应地构建对象表示并校准对象掩码,从而实现更强的鲁棒性。首先,我们通过应用自适应对象代理(Adaptive Object Proxy, AOP)聚合方法来构建对象表示,其中代理代表多层级的任意形状片段作为参考。然后,根据AOP生成的参考-目标关联初步生成原型掩码。接下来,这些原型掩码在网络调制的过程中进一步校准,条件是基于对象代理表示。我们将这一条件下的掩码校准过程以渐进的方式整合起来,在此过程中对象表示和原型掩码逐步进化为更具辨识度的形式。我们在标准的VOS基准数据集YouTube-VOS-18/19和DAVIS-17上进行了广泛的实验。我们的模型在现有已发表的工作中达到了最先进的性能,并且表现出对扰动的卓越鲁棒性。我们的项目代码库位于https://github.com/JerryX1110/Robust-Video-Object-Segmentation。