HyperAIHyperAI

Command Palette

Search for a command to run...

RGB流足以实现时序动作检测

Chenhao Wang Hongxiang Cai Yuxin Zou Yichao Xiong

摘要

截至目前,最先进的时序动作检测方法均基于双流输入,即结合RGB帧与光流(optical flow)信息。尽管融合RGB帧与光流能显著提升性能,但光流是一种人工设计的表征方式,不仅计算开销巨大,而且在方法论上存在不足——双流方法通常无法与光流进行端到端的联合学习。本文提出,高精度的时序动作检测实际上并不依赖光流,而图像级数据增强(Image-Level Data Augmentation, ILDA)是移除光流后避免性能下降的关键解决方案。为验证ILDA的有效性,我们设计了一种简单而高效的单流时序动作检测器——DaoTAD,其仅基于单个RGB流。实验结果表明,当采用ILDA进行训练时,DaoTAD在精度上可与所有现有的先进双流检测器相媲美,同时在推理速度上大幅超越此前方法,其推理速度高达6668 fps(在GeForce GTX 1080 Ti上),表现极为出色。相关代码已公开,地址为:\url{https://github.com/Media-Smart/vedatad}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供