2 个月前

基于特征选择与聚合的实用视频目标检测

Yuheng Shi; Tong Zhang; Xiaojie Guo
基于特征选择与聚合的实用视频目标检测
摘要

与静态图像目标检测相比,视频目标检测(VOD)需要特别关注目标外观在不同帧之间的显著变化以及某些帧中的多样化退化问题。原则上,视频中某一帧的目标检测可以从其他帧的信息中获益。因此,如何有效地跨帧聚合特征是解决该问题的关键。当前大多数聚合方法都是为两阶段检测器量身定制的,由于其双阶段特性而面临较高的计算成本。另一方面,尽管单阶段检测器在处理静态图像方面取得了持续进展,但其在VOD中的适用性尚未得到充分探索。为了应对上述问题,本研究提出了一种非常简单却强大的特征选择与聚合策略,在几乎不增加计算开销的情况下显著提高了准确性。具体而言,为了减少单阶段目标检测器密集预测特性带来的大量计算和内存消耗,我们首先从密集预测图中浓缩候选特征。然后,评估目标帧与其参考帧之间的关系以指导聚合过程。通过广泛的实验和消融研究验证了我们设计的有效性,并展示了其在效果和效率上优于其他前沿VOD方法的优势。值得注意的是,我们的模型在ImageNet VID数据集上达到了新的性能记录,即在单个3090 GPU上实现了超过30 FPS的92.9% AP50,使其成为大规模或实时应用的一个极具吸引力的选择。该实现方法简单,并可在\url{https://github.com/YuHengsss/YOLOV}获取。注:AP50是指在交并比阈值为0.5时的平均精度均值(Average Precision)。