15 天前
了解你的目标:目标感知Transformer实现更优的时空视频定位
Xin Gu, Yaojie Shen, Chenxi Luo, Tiejian Luo, Yan Huang, Yuewei Lin, Heng Fan, Libo Zhang

摘要
Transformer因其端到端的处理流程和出色的性能表现,近年来在视频中目标定位(STVG)任务中受到越来越多关注。现有的基于Transformer的STVG方法通常采用一组初始化为零的物体查询(object queries),通过与多模态特征进行迭代交互,逐步学习目标的空间与时间位置信息。然而,这种零初始化的物体查询缺乏目标特定的先验线索,在复杂场景(如存在干扰项或遮挡)下,难以从多模态特征交互中有效提取具有判别性的目标信息,导致性能下降。为解决这一问题,本文提出一种新型的面向STVG的目标感知Transformer模型(Target-Aware Transformer for STVG, TA-STVG),旨在通过挖掘给定视频-文本对中的目标特定线索,自适应地生成物体查询,从而提升STVG性能。其核心在于两个简洁而高效的模块——文本引导的时间采样(Text-guided Temporal Sampling, TTS)与属性感知的空间激活(Attribute-aware Spatial Activation, ASA),二者以级联方式协同工作。TTS模块利用文本的全局语义信息,从视频中筛选出与目标相关的时序线索;ASA模块则进一步利用先前获得的目标感知时序线索,挖掘目标的细粒度视觉属性信息,用于物体查询的初始化。与现有方法中采用零初始化查询不同,TA-STVG中的物体查询直接由给定的视频-文本对生成,天然携带目标特定的语义线索,具备更强的适应性,能够更有效地与多模态特征进行交互,从而学习到更具判别性的表示,显著提升定位性能。在三个主流基准数据集上的实验结果表明,TA-STVG达到了当前最优的性能水平,显著超越基线方法,充分验证了所提方法的有效性。