2 个月前

SCSampler:从视频中采样显著片段以实现高效的动作识别

Bruno Korbar; Du Tran; Lorenzo Torresani
SCSampler:从视频中采样显著片段以实现高效的动作识别
摘要

许多动作识别数据集由一系列简短且经过剪辑的视频组成,每个视频都包含一个相关的动作。然而,现实世界中的视频(例如在YouTube上)具有非常不同的特性:它们通常长达数分钟,其中简短的相关片段常常穿插在长时间内变化较小的段落中。对这类视频中的每个时间片段密集应用动作识别系统是极其昂贵的。此外,我们的实验表明,这会导致次优的动作识别精度,因为相关片段中的有用预测被长而不重要的视频部分中的无意义分类输出所淹没。本文中,我们引入了一种轻量级的“片段采样”模型,该模型可以高效地识别出长视频中最显著的时间片段。我们证明了通过仅在这类最显著的片段上进行识别,可以大幅降低未剪辑视频的动作识别计算成本。此外,与分析所有片段或随机/均匀选择的片段相比,这种方法在识别精度上也有显著提升。在Sports1M数据集上,我们的片段采样方案将已经处于最先进水平的动作分类器的精度提高了7%,并将其计算成本降低了超过15倍。