摘要

卷积神经网络（Convolutional Neural Networks, CNNs）已被证实是图像识别任务中一类强大的模型。受此成果的鼓舞，本文针对大规模视频分类任务，基于一个包含100万条YouTube视频、涵盖487个类别的新数据集，对CNN进行了全面的实证评估。我们研究了多种在时间维度上扩展CNN连接结构的方法，以充分利用局部时空信息，并提出了一种多分辨率、中心聚焦（foveated）的网络架构，作为加速训练的有前景方案。我们所构建的最佳时空网络相较于强大的基于特征的基准模型，性能显著提升（从55.3%提升至63.9%），但与单帧模型相比，性能提升却出人意料地有限（仅从59.3%提升至60.9%）。为进一步评估模型的泛化能力，我们对最佳模型在UCF-101动作识别数据集上重新训练其顶层网络，结果表明，其性能相较UCF-101基准模型有显著提升（由43.9%提升至63.3%）。

源 PDF 查看代码