2 个月前

YOLOV:使静态图像目标检测器在视频目标检测中表现出色

Yuheng Shi; Naiyan Wang; Xiaojie Guo
YOLOV:使静态图像目标检测器在视频目标检测中表现出色
摘要

视频对象检测(VID)具有挑战性,因为对象外观的高度变化以及某些帧中的多样化退化。然而,从积极的一面来看,与静态图像相比,视频中某一帧的检测可以从其他帧中获得支持。因此,如何在不同帧之间聚合特征对于解决VID问题至关重要。现有的大多数聚合算法都是为两阶段检测器定制的。然而,由于其两阶段特性,这些检测器通常计算成本较高。本研究提出了一种简单而有效的策略来应对上述问题,该策略仅带来微小的额外开销,却显著提高了准确性。具体而言,不同于传统的两阶段流程,我们在单阶段检测之后选择重要区域以避免处理大量低质量候选框。此外,我们评估目标帧与参考帧之间的关系以指导聚合过程。我们进行了广泛的实验和消融研究以验证设计的有效性,并揭示了其在有效性和效率方面优于其他最先进的VID方法的优势。基于YOLOX的模型在单个2080Ti GPU上对ImageNet VID数据集进行测试时,可以实现令人满意的表现(例如,在超过30 FPS的情况下达到87.5% 的AP50),这使其适用于大规模或实时应用。我们的实现方法简单,并已将演示代码和模型发布在 \url{https://github.com/YuHengsss/YOLOV} 上。