6 个月前

摘要

现有的时序动作检测（Temporal Action Detection, TAD）方法通常依赖于在每段视频中生成数量极为庞大的候选片段（proposals）。这一过程导致模型设计复杂，原因在于候选片段的生成以及对每个候选片段进行动作实例评估，从而带来高昂的计算开销。在本工作中，我们首次提出一种无需候选片段的时序动作检测模型——全局分割掩码时序动作检测模型（Temporal Action detection with Global Segmentation mask, TAGS）。其核心思想是在整个视频长度上联合学习每个动作实例的全局分割掩码。与传统的基于候选片段的方法显著不同，TAGS 通过聚焦于全局时序表征的学习，直接检测动作实例的起始与结束时间点，无需依赖候选片段。此外，由于从整体上建模 TAD 任务，而非在单个候选片段层面进行局部处理，TAGS 所需的模型架构更为简洁，计算成本显著降低。大量实验结果表明，尽管结构更简单，TAGS 在两个主流基准数据集上均取得了优于现有方法的性能，达到了新的最先进水平。尤为重要的是，其训练速度比现有方法快约 20 倍，推理效率提升约 1.6 倍。TAGS 的 PyTorch 实现代码已开源，可通过 https://github.com/sauradip/TAGS 获取。

源 PDF