
摘要
参考视频对象分割(Referring Video Object Segmentation, RVOS)是一项具有挑战性的、以语言为引导的视频定位任务,要求模型对视频内容与语言查询的语义信息进行综合理解,从而实现目标对象的精准预测。然而,现有方法通常在帧级别进行多模态融合,其视觉表征的粒度受限,容易导致视觉与语言之间的语义错配,进而产生较差的分割结果。针对这一问题,本文提出一种新颖的多层次表征学习方法,通过挖掘视频内容的内在结构,生成一组具有判别性的视觉嵌入,从而实现更有效的视觉-语言语义对齐。具体而言,我们从不同视觉粒度层面嵌入多样化的视觉线索:在视频层级上融合多帧的长时序信息,在帧层级上捕捉帧内空间语义,在对象层级上引入增强的对象感知特征先验。借助强大的多层次视觉嵌入与精心设计的动态对齐机制,所提模型能够生成鲁棒的表征,显著提升视频对象分割的准确性。在Refer-DAVIS 17和Refer-YouTube-VOS两个基准数据集上的大量实验表明,该模型在分割精度和推理速度方面均取得了显著优于现有方法的性能。