17 天前
基于稀疏到稠密框架的动作管段发现
Yuxi Li, Weiyao Lin, Tao Wang, John See, Rui Qian, Ning Xu, Limin Wang, Shugong Xu

摘要
时空动作检测任务近年来受到研究者的广泛关注。现有的主流方法主要依赖于短时信息,并在每一帧或视频片段上进行密集的串行检测。尽管这些方法在性能上表现良好,但普遍存在对长期时序信息利用不足的问题,且计算效率较低。本文首次提出一种高效框架,仅通过一次前向传播,即可从视频流中以稀疏到密集的策略生成动作管(action tube)候选区域。该框架具有两个关键特性:(1)在时空网络中显式地融合了长期与短期采样信息;(2)设计了一种新型动态特征采样模块(Dynamic Feature Sampling module, DTS),能够在保持系统可处理性的前提下,高效逼近动作管的输出。我们在UCF101-24、JHMDB-21和UCFSports三个基准数据集上对所提模型进行了评估,结果表明其性能达到当前先进水平,具有较强的竞争力。实验表明,所提出的稀疏到密集策略使本框架的效率相较于最接近的竞争对手提升了约7.6倍。