12 天前
AutoLoc:在未剪辑视频中的弱监督时序动作定位
{Shih-Fu Chang, Kazuyuki Miyazawa, Hang Gao, Zheng Shou, Lei Zhang}

摘要
在未剪辑视频中进行时间动作定位(Temporal Action Localization, TAL)对于众多应用具有重要意义。然而,标注每个动作片段的精确信息(包括动作类别和时间边界)成本极高,这促使研究者关注弱监督学习方法,即在训练阶段仅依赖视频级别的标签。然而,当前最先进的弱监督TAL方法主要致力于生成高质量的时间动作激活序列(Class Activation Sequence, CAS),并通过对CAS进行简单阈值处理来实现动作定位,这种方法存在局限性。本文提出一种新型弱监督TAL框架——AutoLoc,能够直接预测每个动作实例的时间边界。为此,我们设计了一种新颖的外-内对比损失(Outer-Inner-Contrastive, OIC)损失函数,可自动挖掘训练边界预测器所需的片段级监督信号。实验结果表明,该方法性能显著提升:在IoU阈值为0.5的条件下,THUMOS'14数据集上的mAP从13.7%提升至21.2%,ActivityNet数据集上的mAP从7.4%提升至27.3%。令人鼓舞的是,我们的弱监督方法在性能上已可与部分全监督方法相媲美,展现出强大的潜力。