8 个月前

摘要

在视频时代的蓬勃发展背景下，视频分割在多媒体研究社区中吸引了越来越多的关注。半监督视频对象分割（VOS）的目标是在给定参考帧中标注的对象掩码的情况下，对视频中的所有目标帧进行对象分割。现有的大多数方法通过构建像素级的参考-目标关联，然后进行像素级跟踪以获得目标掩码。然而，由于忽视了对象级别的线索，这些基于像素的方法使得跟踪容易受到扰动的影响，甚至无法区分相似的对象。为了实现更稳健的VOS，关键在于校准每个特定对象的表示和掩码，使其具有表达性和辨别性。为此，我们提出了一种新的深度网络，该网络可以自适应地构建对象表示并校准对象掩码，从而实现更强的鲁棒性。首先，我们通过应用自适应对象代理（Adaptive Object Proxy, AOP）聚合方法来构建对象表示，其中代理代表多层级的任意形状片段作为参考。然后，根据AOP生成的参考-目标关联初步生成原型掩码。接下来，这些原型掩码在网络调制的过程中进一步校准，条件是基于对象代理表示。我们将这一条件下的掩码校准过程以渐进的方式整合起来，在此过程中对象表示和原型掩码逐步进化为更具辨识度的形式。我们在标准的VOS基准数据集YouTube-VOS-18/19和DAVIS-17上进行了广泛的实验。我们的模型在现有已发表的工作中达到了最先进的性能，并且表现出对扰动的卓越鲁棒性。我们的项目代码库位于https://github.com/JerryX1110/Robust-Video-Object-Segmentation。

源 PDF