17 天前

基于卷积神经网络的大规模视频分类

{Li Fei-Fei, Rahul Sukthankar, Thomas Leung, George Toderici, Sanketh Shetty, Andrej Karpathy}
基于卷积神经网络的大规模视频分类
摘要

卷积神经网络(Convolutional Neural Networks, CNNs)已被证实是图像识别任务中一类强大的模型。受此成果的鼓舞,本文针对大规模视频分类任务,基于一个包含100万条YouTube视频、涵盖487个类别的新数据集,对CNN进行了全面的实证评估。我们研究了多种在时间维度上扩展CNN连接结构的方法,以充分利用局部时空信息,并提出了一种多分辨率、中心聚焦(foveated)的网络架构,作为加速训练的有前景方案。我们所构建的最佳时空网络相较于强大的基于特征的基准模型,性能显著提升(从55.3%提升至63.9%),但与单帧模型相比,性能提升却出人意料地有限(仅从59.3%提升至60.9%)。为进一步评估模型的泛化能力,我们对最佳模型在UCF-101动作识别数据集上重新训练其顶层网络,结果表明,其性能相较UCF-101基准模型有显著提升(由43.9%提升至63.3%)。