2 个月前

少做多得:利用网络动作图像训练CNN进行动作识别

Shugao Ma; Sarah Adel Bargal; Jianming Zhang; Leonid Sigal; Stan Sclaroff
少做多得:利用网络动作图像训练CNN进行动作识别
摘要

近日,研究人员尝试收集数百万个视频以训练卷积神经网络(CNN)模型,用于视频中的动作识别。然而,构建如此大规模的视频数据集需要大量的人力劳动,而在数百万个视频上训练CNN模型则需要巨大的计算资源。相比之下,从网络中收集动作图像要容易得多,且在图像上进行训练所需的计算量也小得多。此外,带有标签的网络图像往往包含有区别的动作姿态,这些姿态突出了视频时间进程中的关键部分。我们探讨了是否可以利用网络动作图像来训练更好的CNN模型以实现视频中的动作识别。为此,我们从网络中手动筛选并收集了23,800张描绘UCF101动作视频数据集中101种动作的图像。研究结果表明,在训练过程中结合使用网络动作图像和视频可以显著提升CNN模型的性能。随后,我们通过利用爬取的未过滤网络图像对UCF101和ActivityNet数据集进行了扩展性研究。我们将1620万个视频帧替换为39.3万个未过滤图像,并获得了相当的性能表现。

少做多得:利用网络动作图像训练CNN进行动作识别 | 最新论文 | HyperAI超神经