11 天前

G-TAD：用于时间动作检测的子图定位

Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, Bernard Ghanem

摘要

时间动作检测（Temporal Action Detection）是视频理解领域中一项基础且具有挑战性的任务。视频上下文信息是有效检测动作的关键线索，然而现有方法主要关注时间上下文，忽视了语义上下文以及其他重要的上下文特性。本文提出一种图卷积网络（Graph Convolutional Network, GCN）模型，能够自适应地将多层级语义上下文融入视频特征，并将时间动作检测建模为子图定位问题。具体而言，我们将视频片段建模为图节点，片段之间的相关性作为边，将与上下文相关联的动作定义为目标子图。基于图卷积作为基本操作，我们设计了一种名为 GCNeXt 的 GCN 模块，该模块通过聚合节点的上下文信息来学习节点特征，并动态更新图中的边结构。为进一步实现子图定位，我们还设计了 SGAlign 层，用于将每个子图嵌入到欧几里得空间中。大量实验表明，G-TAD 能够在无需额外监督的情况下有效挖掘视频上下文信息，并在两个主流检测基准上取得了当前最优性能：在 ActivityNet-1.3 数据集上达到 34.09% 的平均 mAP；在 THUMOS14 数据集上，结合提议处理方法后，在 [email protected] 下达到 51.6% 的性能。G-TAD 的代码已公开，可访问 https://github.com/frostinassiky/gtad。