16 天前

CoLA:基于片段对比学习的弱监督时间动作定位

Can Zhang, Meng Cao, Dongming Yang, Jie Chen, Yuexian Zou
CoLA:基于片段对比学习的弱监督时间动作定位
摘要

弱监督时序动作定位(Weakly-supervised Temporal Action Localization, WS-TAL)旨在仅使用视频级别的标签,对未剪辑视频中的动作进行定位。现有大多数模型遵循“通过分类实现定位”的范式:识别对视频级分类贡献最大的时间片段。然而,这些方法通常独立处理每个片段(或帧),因而忽略了丰富的时序上下文关系。这一局限导致了“单片段欺骗”问题:某些“困难”片段语义过于模糊,难以准确分类。本文提出,通过对比学习有助于识别这些困难片段,并据此提出一种名为CoLA(Snippet Contrastive learning to Localize Actions)的新方法。具体而言,我们设计了一种片段对比损失(Snippet Contrast, SniCo Loss),用于在特征空间中优化困难片段的表示,从而引导网络更精确地感知动作的时序边界,避免时间区间中断的问题。此外,由于无法获取帧级标注,我们进一步提出一种困难片段挖掘算法,以定位潜在的困难片段。大量实验证实,该挖掘策略能有效捕捉困难片段,且SniCo Loss显著提升了特征表示的语义信息量。在THUMOS'14和ActivityNet v1.2数据集上的广泛实验表明,CoLA在多个评价指标上均达到当前最优性能。相关代码已公开,可访问:https://github.com/zhang-can/CoLA。