2 个月前
重新审视弱监督时序动作定位中的前景与背景分离:一种基于聚类的方法
Qinying Liu; Zilei Wang; Shenghai Rong; Junjie Li; Yixin Zhang

摘要
弱监督时间动作定位的目标是在仅有视频级别动作标签的情况下,精确定位视频中的动作实例。现有方法主要采用基于分类的定位流程,通过视频分类损失来优化片段级别的预测。然而,这种公式化方法在分类和检测之间存在差异,导致前景和背景(F&B)片段的分离不够准确。为了解决这一问题,我们提出利用无监督片段聚类来探索片段之间的潜在结构,而不是过度依赖视频分类损失。具体而言,我们提出了一种新的基于聚类的F&B分离算法。该算法包含两个核心组件:一个片段聚类组件,将片段分组到多个潜在聚类中;一个聚类分类组件,进一步将这些聚类分类为前景或背景。由于没有真实标签来训练这两个组件,我们引入了一种基于最优传输的统一自标记机制,生成高质量的伪标签以匹配几种合理的先验分布。这确保了片段的聚类分配可以准确地与其F&B标签相关联,从而提升F&B分离的效果。我们在三个基准数据集上评估了我们的方法:THUMOS14、ActivityNet v1.2 和 v1.3。我们的方法在这三个基准数据集上均取得了令人鼓舞的性能,并且相比之前的方法显著更轻量级。代码可在 https://github.com/Qinying-Liu/CASE 获取。