
摘要
弱监督时序动作定位(Weakly-supervised Temporal Action Localization)是指在仅提供视频级别动作标签的情况下,学习一个动作定位模型。现有的主流框架主要依赖于分类激活(classification activation),该方法通过注意力模型识别与动作相关的帧,并将其划分为不同类别。然而,此类方法容易引发动作-上下文混淆问题:由于上下文帧与特定动作类别具有较强的相关性,其往往被误判为动作帧。为解决该问题,本文提出一种基于条件变分自编码器(Conditional Variational Auto-Encoder, Conditional VAE)的建模方法,用于建模在帧注意力条件下与类别无关的帧级概率。基于观察到动作区域与上下文区域在特征表示层面存在显著差异,我们引入一个概率模型——条件VAE,以建模在给定注意力权重下每一帧的出现概率。通过最大化该条件概率关于注意力权重的值,能够有效区分动作帧与非动作帧。在THUMOS14和ActivityNet1.2数据集上的实验结果表明,所提方法在性能上具有明显优势,且在缓解动作-上下文混淆问题方面表现出良好效果。相关代码已开源,可于GitHub获取。