
摘要
无监督视频对象分割(Unsupervised Video Object Segmentation, UVOS)旨在无需任何人工干预的情况下,对视频中的主要对象进行分割。由于缺乏关于主要对象的先验知识,如何从视频中准确识别这些对象成为UVOS的核心挑战。以往的方法通常将运动物体视为主要对象,并依赖光流来捕捉视频中的运动线索,但仅依靠光流信息难以区分主要对象与与之同步运动的背景物体。这是因为当噪声较大的运动特征与外观特征相结合时,会导致主要对象定位出现偏差。为解决这一问题,本文提出一种新颖的互馈变换网络(reciprocal transformation network),通过关联三个关键因素——帧内对比度、运动线索以及重复出现对象的时间一致性——来发现主要对象。这三个因素分别对应不同类型的主要对象,而本文提出的互馈机制能够实现三者的有机协同,有效消除视频中的模糊干扰项。此外,为避免运动背景物体的信息污染运动特征,本文设计的变换模块可实现外观特征与运动特征之间的双向转换,从而增强运动特征,使模型更关注具有显著外观特征的运动对象,同时抑制与之同步运动的异常噪声。在公开基准数据集上的实验结果表明,所提模型显著优于当前最先进的方法。