11 天前

基于不确定性建模的弱监督时序动作定位

Pilhyeon Lee, Jinglu Wang, Yan Lu, Hyeran Byun
基于不确定性建模的弱监督时序动作定位
摘要

弱监督时序动作定位旨在仅使用视频级标签学习检测动作类别的时序区间。为此,关键在于将属于动作类别的帧与背景帧(即不属于任何动作类别的帧)区分开来。本文从新视角看待背景帧,将其建模为由于不一致性而属于分布外(out-of-distribution)的样本。由此,可通过估计每帧属于分布外的概率(即不确定性)来检测背景帧。然而,在缺乏帧级标签的情况下,直接学习不确定性是不可行的。为在弱监督设定下实现不确定性学习,我们采用多实例学习(Multiple Instance Learning, MIL)的框架。此外,我们进一步引入一种背景熵损失(background entropy loss),通过促使背景帧在所有动作类别上的分布内(in-distribution)概率呈均匀分布,从而更有效地区分背景帧。实验结果表明,所提出的不确定性建模方法能有效缓解背景帧的干扰,并在不依赖复杂技巧的情况下显著提升性能。我们在THUMOS'14和ActivityNet(1.2与1.3版本)基准测试上均显著优于当前最先进的方法。相关代码已开源,地址为:https://github.com/Pilhyeon/WTAL-Uncertainty-Modeling。

基于不确定性建模的弱监督时序动作定位 | 最新论文 | HyperAI超神经