
摘要
动作检测是一项重要且具有挑战性的任务,尤其在未剪辑视频的密集标注数据集上更为突出。这类数据集普遍存在诸多现实世界中的难题,例如复合动作、共现动作以及动作实例持续时间的高度时序变化。为应对这些挑战,我们提出同时探索检测到的动作在类别与时间维度上的关联关系。为此,本文提出一种端到端网络架构——类别-时间关系网络(Class-Temporal Relational Network, CTRN)。该网络包含三个核心组件:(1)表示变换模块(Representation Transform Module)从混合表示中提取类别特定特征,构建图结构数据;(2)类别-时间模块(Class-Temporal Module)以序列化方式建模动作之间的类别关系与时间关系;(3)G分类器利用片段级共现动作对的先验知识,进一步提升共现动作的检测性能。我们在三个具有挑战性的密集标注数据集上对CTRN进行了评估,均取得了当前最优的性能表现,充分体现了所提方法的有效性与鲁棒性。