19 天前

基于远程监督学习识别过程性活动

Xudong Lin, Fabio Petroni, Gedas Bertasius, Marcus Rohrbach, Shih-Fu Chang, Lorenzo Torresani

摘要

本文研究从长达数分钟的长视频中对细粒度、多步骤活动（例如：烹饪不同食谱、实施各类家庭维修、创作多种艺术与手工艺作品）进行分类的问题。准确识别此类活动不仅需要识别构成任务的各个独立步骤，还需捕捉这些步骤之间的时序依赖关系。这一问题与传统的动作分类任务存在显著差异：传统方法通常基于仅持续数秒的视频片段进行优化，且这些视频已由人工裁剪，仅包含简单、原子化的动作。尽管步骤标注有助于训练模型识别程序性活动的各个步骤，但现有大规模数据集中普遍缺乏此类段落级标注，原因在于在长视频中人工标注时间边界成本极高。为解决这一难题，我们提出一种方法，通过利用包含大量复杂活动详细步骤描述的文本知识库（wikiHow）所提供的远程监督信号，自动识别教学类视频中的步骤。该方法采用语言模型，将视频中噪声较大的自动语音识别结果与知识库中的步骤描述进行匹配。实验表明，基于此类自动标注步骤训练得到的视频模型（无需人工监督），在四项下游任务中均展现出优越的泛化性能，包括程序性活动识别、步骤分类、步骤预测以及第一人称视角视频分类。