18 天前

用于视频中高效动作识别的动态采样网络

Yin-Dong Zheng, Zhaoyang Liu, Tong Lu, Limin Wang
用于视频中高效动作识别的动态采样网络
摘要

现有的动作识别方法主要基于片段级分类器,如双流卷积神经网络(two-stream CNNs)或三维卷积神经网络(3D CNNs),这些模型通常在随机选取的视频片段上进行训练,并在测试阶段应用于密集采样的片段。然而,这种标准设置在训练分类器时可能存在次优性,且在实际部署时需要巨大的计算开销。为解决上述问题,本文提出一种新的视频动作识别框架——动态采样网络(Dynamic Sampling Networks, DSN),通过设计一个动态采样模块,旨在提升所学片段级分类器的判别能力,同时提高测试阶段的推理效率。具体而言,DSN由一个采样模块和一个分类模块构成,其目标分别是:学习一种动态采样策略,实时决定保留哪些视频片段;并基于所选片段训练一个片段级分类器,用于执行动作识别任务。在给定输入视频的情况下,我们采用关联式强化学习(associative reinforcement learning)框架训练一个观测网络,以最大化被选中片段在正确预测下的奖励信号。我们在四个主流动作识别数据集——UCF101、HMDB51、THUMOS14 和 ActivityNet v1.3 上进行了大量实验,系统评估了 DSN 框架的多个方面。实验结果表明,DSN 仅需使用不足一半的视频片段即可显著提升推理效率,同时仍能获得略优于或与当前最先进方法相当的识别准确率,充分验证了该方法在效率与性能之间的良好平衡。

用于视频中高效动作识别的动态采样网络 | 最新论文 | HyperAI超神经