弱监督时序动作定位(Weakly-supervised Temporal Action Localization, WTAL)旨在仅依赖视频级别标签的情况下检测动作实例。为应对这一挑战,近年来的方法普遍采用双分支框架,包括一个类别感知分支(class-aware branch)和一个类别无关分支(class-agnostic branch)。理论上,这两个分支应产生一致的动作性激活(actionness activation)。然而,我们观察到实际中存在大量不一致的激活区域,这些区域通常包含语义信息模糊的困难片段(即难以判断是动作还是背景)。针对这一问题,本文提出一种新颖的动作性不一致性引导对比学习(Actionness Inconsistency-guided Contrastive Learning, AICL)方法,利用一致区域的语义信息来增强不一致区域的表征学习能力。具体而言,我们首先通过对比两个分支的预测结果,定义出一致与不一致的片段,随后在一致片段与不一致片段之间构建正负样本对,用于对比学习。此外,为避免出现无一致样本的退化情况(trivial case),我们引入了一种动作一致性约束(action consistency constraint),以控制两个分支输出之间的差异,从而保证学习过程的稳定性与有效性。我们在 THUMOS14、ActivityNet v1.2 和 ActivityNet v1.3 三个标准数据集上进行了大量实验,结果表明,所提出的 AICL 方法在多个指标上均取得了当前最优(state-of-the-art)性能,充分验证了其有效性。相关代码已开源,地址为:https://github.com/lizhilin-ustc/AAAI2023-AICL。