
摘要
在弱监督时序动作定位中,以往的研究由于高估了最显著区域的重要性,未能为每个完整动作定位密集且完整的区域。为了缓解这一问题,我们提出了一种边缘化平均注意力网络(Marginalized Average Attentional Network, MAAN),以原则性的方式抑制最显著区域的主导响应。MAAN采用了一种新颖的边缘化平均聚合(Marginalized Average Aggregation, MAA)模块,并以端到端的方式学习一组潜在的判别概率。MAA根据这组潜在的判别概率从视频片段特征中采样多个子集,并对所有子集特征的平均值取期望。理论上,我们证明了带有学习到的潜在判别概率的MAA模块成功减少了最显著区域与其他区域之间的响应差异。因此,MAAN能够生成更好的类别激活序列,并在视频中识别出密集且完整的动作区域。此外,我们提出了一种快速算法,将构建MAA的复杂度从O($2^T$)降低到O($T^2$)。在两个大规模视频数据集上的大量实验表明,我们的MAAN在弱监督时序动作定位任务上取得了优越的性能。