16 天前

PivoTAL:面向弱监督时间动作定位的先验驱动监督

{Mei Chen, Mubarak Shah, Sandra Sajeev, Matthew Hall, Ye Yu, Gaurav Mittal, Mamshad Nayeem Rizve}
PivoTAL:面向弱监督时间动作定位的先验驱动监督
摘要

弱监督时间动作定位(Weakly-supervised Temporal Action Localization, WTAL)旨在仅使用视频级别的标签,对未剪辑视频中的动作进行定位。当前大多数方法从“分类驱动定位”的视角出发,即先对视频中的每一帧进行分类,再通过人工设计的后处理流程将帧级预测结果聚合为动作片段。然而,由于这一范式限制,模型缺乏对动作边界显式的理解,往往仅关注视频中最具判别性的局部区域,导致动作定位不完整。为解决上述问题,本文提出 PivoTAL(Prior-driven Supervision for Weakly-supervised Temporal Action Localization),从“定位驱动定位”的新视角出发,直接学习动作片段的定位。为此,PivoTAL 利用视频中固有的时空规律,引入三类先验知识:特定动作的场景先验(action-specific scene prior)、动作片段生成先验(action snippet generation prior)以及可学习的高斯先验(learnable Gaussian prior),以指导基于定位的训练过程。实验结果表明,PivoTAL 在基准数据集 THUMOS-14 和 ActivityNet-v1.3 上均显著优于现有方法,平均mAP提升至少3个百分点,展现出强大的性能优势。

PivoTAL:面向弱监督时间动作定位的先验驱动监督 | 最新论文 | HyperAI超神经