6 个月前

摘要

时间活动检测（Temporal Activity Detection）旨在对视频中的每一帧预测其活动类别，这与活动分类（Activity Classification，即活动识别）中仅进行视频级别预测的任务形成对比。由于检测任务需要耗费大量成本的帧级标注，现有的检测数据集规模普遍有限。因此，以往的研究通常采用在大规模分类数据集（如Kinetics-400）上预训练的分类模型进行微调。然而，这类预训练模型在下游检测任务中表现并不理想，原因在于预训练任务与下游微调任务之间存在显著差异。在本工作中，我们提出了一种新颖的“弱监督引导自监督”预训练方法，专门面向时间活动检测任务。该方法利用弱标签（即视频级分类标签），通过生成帧级伪标签、多动作帧以及动作片段，构建自监督的预训练任务（即检测任务）。简而言之，我们在无需额外标注的前提下，基于大规模分类数据，设计了一个与下游检测任务高度相似的自监督检测任务进行模型预训练。实验结果表明，采用所提出的弱监督引导自监督检测预训练方法得到的模型，在多个具有挑战性的活动检测基准数据集上（包括Charades和MultiTHUMOS）均显著优于现有方法。此外，我们通过大量消融实验，深入揭示了该方法在何种场景下以及如何有效应用于活动检测任务。相关代码已开源，地址为：https://github.com/kkahatapitiya/SSDet。

源 PDF