11 天前

基于循环关系共识的鲁棒指代视频目标分割

Xiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Bhiksha Raj, Yan Lu
基于循环关系共识的鲁棒指代视频目标分割
摘要

参考视频目标分割(Referring Video Object Segmentation, R-VOS)是一项具有挑战性的任务,旨在根据语言描述对视频中的目标对象进行分割。现有大多数R-VOS方法均依赖于一个关键假设:所指代的对象必须在视频中实际出现。我们称这一假设为“语义一致性”(semantic consensus)。然而,在真实应用场景中,该假设常常被打破——语言表达可能针对的是不存在目标的虚假视频。为此,本文强调了构建具备鲁棒性的R-VOS模型以应对语义不一致问题的必要性。基于此,我们提出了一项扩展任务——鲁棒性R-VOS(Robust R-VOS),该任务可接受未配对的视频-文本输入。为解决这一问题,我们采用联合建模主R-VOS任务与其对偶任务(即文本重建)的方法。引入一种结构化的文本到文本循环约束(structural text-to-text cycle constraint),用于区分视频-文本对之间的语义一致性,并在正样本对中施加该一致性约束,从而实现来自正样本与负样本的多模态对齐。该结构化约束有效应对了语言表达的多样性挑战,克服了以往方法依赖点对点约束所带来的局限性。此外,我们构建了一个新的评估数据集——R²-Youtube-VOS,用于衡量模型在语义不一致场景下的鲁棒性。实验结果表明,我们的模型在标准R-VOS基准数据集Ref-DAVIS17和Ref-Youtube-VOS上均取得了当前最优性能,并在自建的R²-Youtube-VOS数据集上展现出卓越的鲁棒性表现。

基于循环关系共识的鲁棒指代视频目标分割 | 最新论文 | HyperAI超神经