6 个月前

摘要

参考视频目标分割（Referring Video Object Segmentation, R-VOS）是一项具有挑战性的任务，旨在根据语言描述对视频中的目标对象进行分割。现有大多数R-VOS方法均依赖于一个关键假设：所指代的对象必须在视频中实际出现。我们称这一假设为“语义一致性”（semantic consensus）。然而，在真实应用场景中，该假设常常被打破——语言表达可能针对的是不存在目标的虚假视频。为此，本文强调了构建具备鲁棒性的R-VOS模型以应对语义不一致问题的必要性。基于此，我们提出了一项扩展任务——鲁棒性R-VOS（Robust R-VOS），该任务可接受未配对的视频-文本输入。为解决这一问题，我们采用联合建模主R-VOS任务与其对偶任务（即文本重建）的方法。引入一种结构化的文本到文本循环约束（structural text-to-text cycle constraint），用于区分视频-文本对之间的语义一致性，并在正样本对中施加该一致性约束，从而实现来自正样本与负样本的多模态对齐。该结构化约束有效应对了语言表达的多样性挑战，克服了以往方法依赖点对点约束所带来的局限性。此外，我们构建了一个新的评估数据集——R²-Youtube-VOS，用于衡量模型在语义不一致场景下的鲁棒性。实验结果表明，我们的模型在标准R-VOS基准数据集Ref-DAVIS17和Ref-Youtube-VOS上均取得了当前最优性能，并在自建的R²-Youtube-VOS数据集上展现出卓越的鲁棒性表现。

源 PDF