17 天前

I3D-LSTM:一种用于人体动作识别的新模型

{Zhenjiang Miao, Xianyuan Wang, Ruyi Zhang, Shanshan Hao}
摘要

动作识别近年来已成为一个备受关注的研究热点,其目标是自动识别视频中人类执行的不同动作。当前主流方法通常采用在ImageNet数据集上预训练的模型作为特征提取器,然而,使用大规模静态图像数据集来预训练视频分类模型并非最优选择。此外,鲜有研究注意到:三维卷积神经网络(3D CNN)在提取低层次时空特征方面表现更优,而循环神经网络(RNN)则在建模高层次时序特征序列方面更具优势。针对上述两个问题,本文提出了一种新型模型。首先,我们在大规模视频动作识别数据集Kinetics上对3D CNN模型进行预训练,以提升模型的泛化能力;随后,引入长短期记忆网络(LSTM)来建模由Kinetics预训练3D CNN所提取的高层次时序特征。实验结果表明,Kinetics预训练模型在多数情况下优于ImageNet预训练模型,所提出的网络架构在UCF-101数据集上取得了领先的性能表现。