
摘要
在本报告中,我们对YOLO系列检测器提出了一系列实践经验上的改进,构建出一款高性能的新一代检测器——YOLOX。我们摒弃了传统的基于锚框(anchor-based)的检测方式,转而采用无锚框(anchor-free)架构,并融合多项先进的检测技术,包括解耦头(decoupled head)结构以及当前领先的标签分配策略SimOTA,从而在多个不同规模的模型上均取得了当前最优的检测性能。具体而言:对于参数量仅为0.91M、计算量为1.08G FLOPs的YOLO-Nano模型,在COCO数据集上达到了25.3%的AP,较NanoDet提升了1.8% AP;针对工业界广泛应用的YOLOv3模型,我们通过改进将其在COCO数据集上的AP提升至47.3%,超越当前最优实践3.0% AP;对于参数量与YOLOv4-CSP、YOLOv5-L相当的YOLOX-L模型,在Tesla V100上实现了68.9 FPS的推理速度,并在COCO数据集上达到50.0% AP,较YOLOv5-L高出1.8% AP。此外,我们仅使用单一的YOLOX-L模型,便在CVPR 2021自动驾驶研讨会(Workshop on Autonomous Driving)举办的Streaming Perception Challenge中荣获第一名。我们期望本报告能为实际应用场景中的开发者与研究者提供有价值的参考经验。同时,我们已提供支持ONNX、TensorRT、NCNN和OpenVINO等多种部署框架的版本。源代码已开源,地址为:https://github.com/Megvii-BaseDetection/YOLOX。