11 天前

用于弱监督时序动作定位的双流共识网络

Yuanhao Zhai, Le Wang, Wei Tang, Qilin Zhang, Junsong Yuan, Gang Hua
用于弱监督时序动作定位的双流共识网络
摘要

弱监督时间动作定位(Weakly-supervised Temporal Action Localization, W-TAL)旨在仅依赖视频级别标签,对未剪辑视频中的所有动作实例进行分类与定位。然而,在缺乏帧级标注的情况下,现有W-TAL方法难以有效识别误检的动作提议(false positive action proposals),并生成具有精确时间边界的动作提议。针对这一挑战,本文提出一种双流共识网络(Two-Stream Consensus Network, TSCN),以协同解决上述问题。所提出的TSCN采用一种迭代精炼训练机制,通过迭代更新帧级伪真实标签(pseudo ground truth),为模型提供帧级监督信号,从而提升模型训练效果,并有效消除误检的动作提议。此外,本文还提出一种新型注意力归一化损失(attention normalization loss),旨在促使模型预测的注意力权重呈现二值化选择特性,进而促进动作实例时间边界的精确定位。在THUMOS14与ActivityNet数据集上的实验结果表明,所提出的TSCN显著优于当前主流的弱监督方法,甚至在部分指标上达到了与近期一些全监督方法相当的性能。

用于弱监督时序动作定位的双流共识网络 | 最新论文 | HyperAI超神经