8 个月前

摘要

弱监督时间动作定位（WS-TAL）的目标是在仅有视频级监督的情况下，对未剪辑视频中的所有动作实例进行定位。由于训练过程中缺乏帧级注释，当前的 WS-TAL 方法依赖于注意力机制来定位对视频级分类任务有贡献的前景片段或帧。然而，这种策略经常在定位结果中将上下文与实际动作混淆。分离动作和上下文是实现精确 WS-TAL 的核心问题，但这一挑战在现有文献中被严重忽视。本文引入了一种显式考虑上下文以实现准确动作定位的动作-上下文分离网络（ACSNet）。该网络由两个分支组成（即前景-背景分支和动作-上下文分支）。前景-背景分支首先在整个视频中区分前景和背景，而动作-上下文分支进一步将前景分为动作和上下文。我们将视频片段与两个潜在组件关联起来（即正向组件和负向组件），它们的不同组合可以有效地表征前景、动作和上下文。此外，我们引入了扩展标签及其辅助上下文类别，以促进动作-上下文分离的学习。实验结果表明，在 THUMOS14 和 ActivityNet v1.2/v1.3 数据集上，ACSNet 显著优于现有的最先进的 WS-TAL 方法。

源 PDF