11 天前
SOC:用于指代视频目标分割的语义辅助目标聚类
Zhuoyan Luo, Yicheng Xiao, Yong Liu, Shuyan Li, Yitong Wang, Yansong Tang, Xiu Li, Yujiu Yang

摘要
本文通过增强视频级视觉-语言对齐,研究指代视频目标分割(Referring Video Object Segmentation, RVOS)任务。现有方法通常将RVOS建模为序列预测问题,对每一帧独立进行多模态交互与分割操作。然而,由于缺乏对视频内容的整体性理解,这些方法在有效利用帧间关系以及理解描述对象随时间变化的文本信息方面存在困难。为解决这一问题,本文提出语义辅助目标聚类(Semantic-assisted Object Cluster, SOC),该方法统一聚合视频内容与文本引导信息,实现统一的时序建模与跨模态对齐。通过将一组帧级目标嵌入与语言标记相关联,SOC促进了跨模态与跨时间步的联合表征学习。此外,我们设计了多模态对比监督机制,以在视频层级上构建高质量对齐的联合表征空间。我们在多个主流RVOS基准数据集上进行了大量实验,结果表明,所提方法在所有基准上均显著优于当前最先进的方法。同时,对时序一致性的强调显著提升了模型在处理具有时序变化特征的文本描述时的分割稳定性与适应能力。代码将公开发布。