11 天前

用于视频中时序动作定位的图卷积模块

Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan
用于视频中时序动作定位的图卷积模块
摘要

时间动作定位(Temporal Action Localization)一直是计算机视觉领域的重要研究方向。现有的最先进动作定位方法通常将视频划分为多个动作单元(在两阶段方法中称为提案,即proposals;在单阶段方法中称为片段,即segments),然后对每个动作单元独立进行动作识别或回归,而未在学习过程中显式地建模这些动作单元之间的相互关系。本文认为,动作单元之间的关联在动作定位任务中起着至关重要的作用,一个更强大的动作检测器不仅应捕捉每个动作单元的局部内容,还应具备更广阔的上下文感知能力。为此,我们提出了一种通用的图卷积模块(General Graph Convolutional Module, GCM),该模块可无缝集成至现有的动作定位方法中,适用于两阶段与单阶段范式。具体而言,我们首先构建一个图结构,其中每个动作单元作为图中的一个节点,不同动作单元之间的关系则以边的形式表示。我们引入两种类型的关系:一种用于捕捉不同动作单元之间的时序关联,另一种用于刻画它们的语义关系。特别地,在两阶段方法中,我们进一步探索了两种不同类型的边:一种连接重叠的动作单元,另一种连接相邻但互不重叠的动作单元。在所构建的图结构基础上,我们应用图卷积网络(Graph Convolutional Networks, GCNs)来建模不同动作单元之间的复杂关系,从而学习更具信息量的表示,以提升动作定位性能。实验结果表明,所提出的GCM能够持续提升现有动作定位方法的性能,涵盖两阶段方法(如CBR和R-C3D)以及单阶段方法(如D-SSAD),充分验证了该模块的通用性与有效性。

用于视频中时序动作定位的图卷积模块 | 最新论文 | HyperAI超神经