17 天前
基于对比评估网络的弱监督时间动作定位
{ Gang Hua, Nanning Zheng, Zhenxing Niu, Zhanning Gao, Qilin Zhang, Le Wang, Ziyi Liu}

摘要
弱监督时序动作定位(Weakly-supervised Temporal Action Localization, WS-TAL)是一项具有前景但极具挑战性的任务,其在训练过程中仅能获取视频级别的动作类别标签。与需要时序动作边界标注的强监督方法不同,WS-TAL无需依赖精细的边界注释,因而具备利用自动获取的视频标签作为视频级监督信号的潜力。然而,这种粗粒度的视频级监督不可避免地引入混淆,尤其是在包含多个动作实例的未剪裁视频中。为应对这一挑战,本文提出了一种基于对比的定位评估网络(Contrast-based Localization EvaluAtioN Network, CleanNet),并引入了一种新型的动作候选评估器。该评估器通过利用片段级动作分类预测结果中的时间对比性,提供伪监督信号。本质上,新的动作候选评估器引入了额外的时间对比约束,使得评分较高的动作候选区域更有可能与真实动作实例对齐。此外,新的动作定位模块作为CleanNet的有机组成部分,支持端到端的联合训练。这与多数现有WS-TAL方法中将动作定位仅作为后处理步骤的做法形成鲜明对比。在THUMOS14和ActivityNet数据集上的实验结果表明,CleanNet在性能上显著优于现有的最先进WS-TAL算法,验证了其有效性与优越性。