12 天前

多区域双流R-CNN用于动作检测

{Cordelia Schmid, Xiaojiang Peng}
多区域双流R-CNN用于动作检测
摘要

我们提出了一种用于真实场景视频中动作检测的多区域双流R-CNN模型。该方法基于Faster R-CNN [1]的帧级动作检测框架,并做出三项主要贡献:(1)我们证明了运动区域建议网络能够生成高质量的候选区域,其与外观区域建议网络生成的候选区域具有互补性;(2)我们表明,将多帧光流信息进行堆叠可显著提升帧级动作检测性能;(3)我们在Faster R-CNN模型中引入多区域机制,从而为身体各部位提供互补的上下文信息。随后,我们采用Viterbi算法将帧级检测结果进行时序关联,并利用最大子数组方法实现动作的时序定位。在UCF-Sports、J-HMDB和UCF101动作检测数据集上的实验结果表明,该方法在帧级mAP和视频级mAP两个指标上均显著优于当前最先进方法。

多区域双流R-CNN用于动作检测 | 最新论文 | HyperAI超神经