2 个月前

基于上下文的时空视频定位

Xin Gu; Heng Fan; Yan Huang; Tiejian Luo; Libo Zhang

摘要

时空视频定位（Spatio-temporal Video Grounding，简称STVG）任务的目标是在给定文本查询的情况下，为特定实例在视频中定位一个时空管。尽管已有进展，但当前方法由于从文本中获取的对象信息不足，容易受到视频中的干扰物或严重对象外观变化的影响，导致性能下降。为了解决这一问题，我们提出了一种新的框架——上下文引导的STVG（Context-Guided STVG，简称CG-STVG），该框架挖掘视频中对象的判别性实例上下文，并将其作为目标定位的补充指导。CG-STVG的关键在于两个特别设计的模块：实例上下文生成（Instance Context Generation，简称ICG）模块和实例上下文精炼（Instance Context Refinement，简称ICR）模块。ICG模块专注于发现实例的视觉上下文信息（包括外观和运动），而ICR模块则旨在通过消除上下文中无关甚至有害的信息来改进来自ICG的实例上下文。在定位过程中，ICG和ICR模块被部署在Transformer架构的每个解码阶段，用于学习实例上下文。具体而言，从一个解码阶段学到的实例上下文会被传递到下一个阶段，并作为包含丰富且判别性的对象特征的指导信息，以增强解码特征中的目标意识。这反过来又有利于生成更好的新实例上下文，最终提高定位精度。与现有方法相比，CG-STVG不仅利用了文本查询中的对象信息，还结合了挖掘出的实例视觉上下文提供的指导，从而实现更准确的目标定位。我们在三个基准数据集上进行了实验，包括HCSTVG-v1/v2和VidSTG。实验结果表明，在m_tIoU和m_vIoU指标上，CG-STVG均达到了新的最先进水平，展示了其有效性。代码将在https://github.com/HengLan/CGSTVG发布。