17 天前

DETRs 在实时目标检测中超越 YOLOs

Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen
DETRs 在实时目标检测中超越 YOLOs
摘要

YOLO系列因其在速度与精度之间取得的合理平衡,已成为实时目标检测领域最受欢迎的框架。然而,我们观察到,NMS(非极大值抑制)会显著影响YOLO系列在速度与精度上的表现。近年来,基于Transformer的端到端检测器(DETR)提供了一种无需NMS的替代方案。然而,其高昂的计算成本限制了其实用性,也阻碍了其在去除NMS优势方面的充分释放。在本文中,我们提出了一种实时端到端目标检测器——实时DETR(Real-Time DEtection TRansformer,简称RT-DETR),据我们所知,这是首个能够有效解决上述矛盾的实时端到端检测框架。RT-DETR的构建分为两个阶段,借鉴了先进DETR的设计思想:首先,在保持精度的前提下提升检测速度;随后,在维持高速度的基础上进一步提升精度。具体而言,我们设计了一种高效的混合编码器(hybrid encoder),通过解耦同一尺度内的特征交互与跨尺度特征融合,显著加速多尺度特征的处理过程,从而提升推理速度。随后,我们提出了“不确定性最小化查询选择”(uncertainty-minimal query selection)机制,为解码器提供高质量的初始查询,有效提升检测精度。此外,RT-DETR支持通过调整解码器层数实现灵活的速度调节,无需重新训练即可适配不同应用场景。实验结果表明,RT-DETR-R50与RT-DETR-R101在COCO数据集上分别达到53.1%与54.3%的AP指标,在T4 GPU上分别实现108 FPS与74 FPS的推理速度,显著优于此前先进的YOLO系列模型,在速度与精度上均取得领先。我们还构建了可扩展的RT-DETR系列模型,其性能超越了更轻量级的YOLO检测器(S与M版本)。此外,RT-DETR-R50在精度上比DINO-R50高出2.2% AP,同时推理速度提升约21倍。在使用Objects365数据集进行预训练后,RT-DETR-R50与RT-DETR-R101的AP分别达到55.3%与56.2%。项目主页:https://zhao-yian.github.io/RTDETR

DETRs 在实时目标检测中超越 YOLOs | 最新论文 | HyperAI超神经