6 个月前

摘要

弱监督时序动作定位旨在仅利用视频级别标签，定位动作实例的时间边界并识别其对应的动作类别。传统方法主要依赖单一注意力分支和类别激活序列，专注于区分前景帧与背景帧。然而，我们认为除了明显的前景帧和背景帧之外，还存在大量语义上模糊的动作上下文帧。将这些上下文帧统一归为背景类别并不合理，因为它们在语义上与特定动作类别密切相关。因此，仅依靠单一类别激活序列难以有效抑制这些动作上下文帧。为解决这一问题，本文提出一种名为ACM-Net的动作上下文建模网络，该网络引入三分支注意力模块，能够同时衡量每个时间点属于动作实例、上下文或非动作背景的可能性。基于所获得的三分支注意力值，我们构建了三分支类别激活序列，分别用于表征动作实例、上下文信息以及非动作背景。为验证ACM-Net的有效性，我们在两个基准数据集THUMOS-14和ActivityNet-1.3上进行了大量实验。实验结果表明，所提方法显著优于当前主流的弱监督方法，甚至在性能上可与全监督方法相媲美。代码已开源，地址为：https://github.com/ispc-lab/ACM-Net。

源 PDF