
摘要
动作理解已进入细粒度时代,因为大多数现实生活中的行为只有细微的差异。为了以高效利用标签的方式准确检测这些细粒度动作,我们首次解决了视频中弱监督细粒度时序动作检测的问题。由于缺乏对细粒度动作之间细微差异的精心设计,以往用于一般动作检测的弱监督模型在细粒度场景下表现不佳。我们提出将动作建模为可重用原子动作的组合,这些原子动作通过自监督聚类从数据中自动发现,从而捕捉细粒度动作的共性和个性。所学习到的原子动作由视觉概念表示,并进一步利用语义标签层次结构映射到细粒度和粗粒度的动作标签。我们的方法构建了四个层级的视觉表征层次结构:片段级、原子动作级、细粒度动作类别级和粗粒度动作类别级,并在每个层级进行监督。在两个大规模细粒度视频数据集 FineAction 和 FineGym 上进行的大量实验表明,我们提出的弱监督模型在细粒度动作检测方面具有显著优势,并且达到了当前最佳的效果。