2 个月前

基于上下文的时空视频定位

Xin Gu; Heng Fan; Yan Huang; Tiejian Luo; Libo Zhang
基于上下文的时空视频定位
摘要

时空视频定位(Spatio-temporal Video Grounding,简称STVG)任务的目标是在给定文本查询的情况下,为特定实例在视频中定位一个时空管。尽管已有进展,但当前方法由于从文本中获取的对象信息不足,容易受到视频中的干扰物或严重对象外观变化的影响,导致性能下降。为了解决这一问题,我们提出了一种新的框架——上下文引导的STVG(Context-Guided STVG,简称CG-STVG),该框架挖掘视频中对象的判别性实例上下文,并将其作为目标定位的补充指导。CG-STVG的关键在于两个特别设计的模块:实例上下文生成(Instance Context Generation,简称ICG)模块和实例上下文精炼(Instance Context Refinement,简称ICR)模块。ICG模块专注于发现实例的视觉上下文信息(包括外观和运动),而ICR模块则旨在通过消除上下文中无关甚至有害的信息来改进来自ICG的实例上下文。在定位过程中,ICG和ICR模块被部署在Transformer架构的每个解码阶段,用于学习实例上下文。具体而言,从一个解码阶段学到的实例上下文会被传递到下一个阶段,并作为包含丰富且判别性的对象特征的指导信息,以增强解码特征中的目标意识。这反过来又有利于生成更好的新实例上下文,最终提高定位精度。与现有方法相比,CG-STVG不仅利用了文本查询中的对象信息,还结合了挖掘出的实例视觉上下文提供的指导,从而实现更准确的目标定位。我们在三个基准数据集上进行了实验,包括HCSTVG-v1/v2和VidSTG。实验结果表明,在m_tIoU和m_vIoU指标上,CG-STVG均达到了新的最先进水平,展示了其有效性。代码将在https://github.com/HengLan/CGSTVG发布。