6 个月前

摘要

弱监督时序动作定位旨在仅使用视频级别的动作标签进行训练，识别并定位未剪辑视频中的动作片段。由于缺乏动作片段的边界信息，现有方法大多依赖于多实例学习（Multiple Instance Learning, MIL），即通过将已标注的“包”（即未剪辑视频）进行分类，来监督未标注的“实例”（即视频片段）的预测。然而，这种范式通常将视频中的片段视为相互独立的实例，忽视了动作片段内部及跨片段之间的潜在时序结构。为解决这一问题，本文提出 \system，一种新型的弱监督时序动作定位（WTAL）框架，能够在标准MIL方法的基础上，实现显式的、动作感知的片段建模。该框架包含三个以片段为中心的核心组件：（i）动态片段采样机制，用于补偿短时动作的贡献；（ii）片段内与片段间注意力机制，用于建模动作动态并捕捉时序依赖关系；（iii）伪实例级监督机制，用于提升动作边界的预测精度。此外，本文还提出一种多阶段精炼策略，在模型训练过程中逐步优化动作提议。在THUMOS-14和ActivityNet-v1.3数据集上的大量实验表明，所提方法具有显著有效性，并在两个数据集上均取得了新的SOTA（State-of-the-Art）性能。相关代码与模型已公开发布于~\url{https://github.com/boheumd/ASM-Loc}。

源 PDF 查看代码