11 天前

RGB流足以实现时序动作检测

Chenhao Wang, Hongxiang Cai, Yuxin Zou, Yichao Xiong
RGB流足以实现时序动作检测
摘要

截至目前,最先进的时序动作检测方法均基于双流输入,即结合RGB帧与光流(optical flow)信息。尽管融合RGB帧与光流能显著提升性能,但光流是一种人工设计的表征方式,不仅计算开销巨大,而且在方法论上存在不足——双流方法通常无法与光流进行端到端的联合学习。本文提出,高精度的时序动作检测实际上并不依赖光流,而图像级数据增强(Image-Level Data Augmentation, ILDA)是移除光流后避免性能下降的关键解决方案。为验证ILDA的有效性,我们设计了一种简单而高效的单流时序动作检测器——DaoTAD,其仅基于单个RGB流。实验结果表明,当采用ILDA进行训练时,DaoTAD在精度上可与所有现有的先进双流检测器相媲美,同时在推理速度上大幅超越此前方法,其推理速度高达6668 fps(在GeForce GTX 1080 Ti上),表现极为出色。相关代码已公开,地址为:\url{https://github.com/Media-Smart/vedatad}。

RGB流足以实现时序动作检测 | 最新论文 | HyperAI超神经