17 天前

时空可学习提议用于端到端视频目标检测

Khurram Azeem Hashmi, Didier Stricker, Muhammamd Zeshan Afzal
时空可学习提议用于端到端视频目标检测
摘要

本文提出了一种利用时序信息生成目标候选区域的新方法,用于视频目标检测。当前基于区域的视频目标检测器在特征聚合方面严重依赖于单帧RPN(区域提议网络)生成的候选区域,这不可避免地引入了NMS等额外组件,并在低质量帧上产生不可靠的候选区域。为解决上述限制,本文提出了一种名为SparseVOD的新颖视频目标检测框架,该框架采用Sparse R-CNN结构以有效利用时序信息。具体而言,在Sparse R-CNN的动态头(dynamic head)中引入了两个新模块:首先,设计了基于时序RoI对齐(Temporal RoI Align)操作的时序特征提取模块,用于提取候选区域的时序特征;其次,受序列级语义聚合思想的启发,引入了注意力引导的语义候选特征聚合模块,在检测前增强目标特征表示能力。所提出的SparseVOD方法有效减轻了复杂后处理步骤的开销,并实现了整个检测流程的端到端可训练性。大量实验表明,与单帧Sparse R-CNN相比,该方法在mAP指标上提升了8%至9%。此外,在ImageNet VID数据集上,采用ResNet-50作为主干网络时,SparseVOD取得了80.3%的mAP,达到当前最优水平,并在更高IoU阈值(IoU > 0.5)下显著超越现有基于候选区域的方法。

时空可学习提议用于端到端视频目标检测 | 最新论文 | HyperAI超神经