
摘要
基于文本的视频分割是一项具有挑战性的任务,旨在从视频中分割出自然语言所指代的特定对象。该任务本质上要求模型具备语义理解能力以及对视频的细粒度分析能力。现有的方法通常采用自底向上的方式将语言表征引入分割模型,但这种做法仅在卷积神经网络(ConvNets)的局部感受野内进行视觉-语言交互。我们认为,这种交互机制并未真正实现,因为模型在仅依赖局部观测的情况下难以构建区域间的高层级关系,而这与自然语言中指代表达的逻辑相悖。事实上,人们在描述目标对象时,通常依赖其与其他对象之间的关系,而这些关系往往需要通观整个视频才能准确理解。为解决上述问题,我们提出一种新颖的自顶向下方法,模拟人类在语言引导下对视频对象进行分割的思维过程。该方法首先识别视频中的所有候选对象,然后通过解析这些高层语义对象之间的关系,精准定位被语言所指代的目标。为此,我们深入研究了三种类型的对象级关系,以实现对语义关系的精确建模:空间位置关系、文本引导的语义关系以及时间关系。在A2D Sentences和J-HMDB Sentences两个基准数据集上的大量实验表明,所提方法显著优于当前最先进的技术。定性分析结果进一步显示,我们的方法生成的结果更具可解释性。