用于语言引导视频分割的局部-全局上下文感知Transformer

我们探讨了语言引导的视频分割(Language-guided Video Segmentation, LVS)任务。以往的算法大多采用3D卷积神经网络(3D CNNs)来学习视频表征,但在捕捉长期上下文信息方面存在困难,且容易出现视觉与语言之间的错位问题。针对这一挑战,我们提出了一种名为Locater(局部-全局上下文感知Transformer)的新架构。Locater通过引入有限记忆机制,对Transformer架构进行增强,从而能够以高效方式利用语言表达对整段视频进行查询。该记忆模块包含两个组成部分:一个用于持续保留全局视频内容,另一个用于动态聚合局部时序上下文及分割历史信息。基于记忆中保存的局部-全局上下文以及每一帧的特定内容,Locater能够整体且灵活地理解语言表达,并为每一帧生成自适应的查询向量。该查询向量用于在对应帧中检索以生成分割掩码。此外,记忆机制使Locater具备线性时间复杂度和恒定大小的内存占用,而传统的Transformer式自注意力计算的复杂度随序列长度呈二次增长。为全面评估LVS模型的视觉定位能力,我们构建了一个新的LVS数据集A2D-S+,其在A2D-S数据集基础上进一步提升了挑战性,尤其在区分外观相似对象方面提出了更高要求。在三个LVS数据集及我们自建的A2D-S+数据集上的实验表明,Locater显著优于先前的最先进方法。此外,在第三届大规模视频对象分割挑战赛(3rd Large-scale Video Object Segmentation Challenge)的“指代视频对象分割”(Referring Video Object Segmentation)赛道中,我们荣获第一名,Locater作为核心技术支撑了获胜方案。相关代码与数据集已公开,地址为:https://github.com/leonnnop/Locater