11 天前
ASM-Loc:面向弱监督时间动作定位的动作感知片段建模
Bo He, Xitong Yang, Le Kang, Zhiyu Cheng, Xin Zhou, Abhinav Shrivastava

摘要
弱监督时序动作定位旨在仅使用视频级别的动作标签进行训练,识别并定位未剪辑视频中的动作片段。由于缺乏动作片段的边界信息,现有方法大多依赖于多实例学习(Multiple Instance Learning, MIL),即通过将已标注的“包”(即未剪辑视频)进行分类,来监督未标注的“实例”(即视频片段)的预测。然而,这种范式通常将视频中的片段视为相互独立的实例,忽视了动作片段内部及跨片段之间的潜在时序结构。为解决这一问题,本文提出 \system,一种新型的弱监督时序动作定位(WTAL)框架,能够在标准MIL方法的基础上,实现显式的、动作感知的片段建模。该框架包含三个以片段为中心的核心组件:(i)动态片段采样机制,用于补偿短时动作的贡献;(ii)片段内与片段间注意力机制,用于建模动作动态并捕捉时序依赖关系;(iii)伪实例级监督机制,用于提升动作边界的预测精度。此外,本文还提出一种多阶段精炼策略,在模型训练过程中逐步优化动作提议。在THUMOS-14和ActivityNet-v1.3数据集上的大量实验表明,所提方法具有显著有效性,并在两个数据集上均取得了新的SOTA(State-of-the-Art)性能。相关代码与模型已公开发布于~\url{https://github.com/boheumd/ASM-Loc}。