8 个月前

摘要

弱监督时间动作定位的目标是在仅有视频级别动作标签的情况下，精确定位视频中的动作实例。现有方法主要采用基于分类的定位流程，通过视频分类损失来优化片段级别的预测。然而，这种公式化方法在分类和检测之间存在差异，导致前景和背景（F&B）片段的分离不够准确。为了解决这一问题，我们提出利用无监督片段聚类来探索片段之间的潜在结构，而不是过度依赖视频分类损失。具体而言，我们提出了一种新的基于聚类的F&B分离算法。该算法包含两个核心组件：一个片段聚类组件，将片段分组到多个潜在聚类中；一个聚类分类组件，进一步将这些聚类分类为前景或背景。由于没有真实标签来训练这两个组件，我们引入了一种基于最优传输的统一自标记机制，生成高质量的伪标签以匹配几种合理的先验分布。这确保了片段的聚类分配可以准确地与其F&B标签相关联，从而提升F&B分离的效果。我们在三个基准数据集上评估了我们的方法：THUMOS14、ActivityNet v1.2 和 v1.3。我们的方法在这三个基准数据集上均取得了令人鼓舞的性能，并且相比之前的方法显著更轻量级。代码可在 https://github.com/Qinying-Liu/CASE 获取。

源 PDF