
이 보고서에서는 YOLO 시리즈에 대한 경험 기반 개선 사항을 제시하며, 새로운 고성능 객체 탐지기인 YOLOX를 도입한다. 우리는 기존 YOLO 탐지기의 anchor 기반 구조를 anchor-free 방식으로 전환하고, 분리된 헤드(Decoupled Head) 및 최첨단 레이블 할당 전략인 SimOTA를 도입하여 다양한 규모의 모델에서 최신 기술 수준의 성능을 달성하였다. 파라미터 수가 단 0.91M, FLOPs는 1.08G에 불과한 YOLO-Nano의 경우, COCO 데이터셋에서 25.3%의 AP를 기록하며 NanoDet보다 1.8% 높은 성능을 보였다. 산업계에서 가장 널리 사용되는 탐지기 중 하나인 YOLOv3의 경우, COCO에서 47.3%의 AP를 달성하여 기존 최고 성능 기준보다 3.0% 높은 성능을 기록했다. YOLOv4-CSP 및 YOLOv5-L과 비슷한 파라미터 수를 가진 YOLOX-L은 Tesla V100에서 68.9 FPS의 속도로 COCO에서 50.0%의 AP를 달성하며, YOLOv5-L보다 1.8% 높은 성능을 보였다. 또한, 단일 YOLOX-L 모델을 사용하여 CVPR 2021 자율주행 워크숍에서 진행된 Streaming Perception Challenge에서 1위를 차지하였다. 본 보고서가 실용적 환경에서 개발자 및 연구자들에게 유용한 경험을 제공하기를 기대하며, ONNX, TensorRT, NCNN, OpenVINO를 지원하는 배포 버전도 제공한다. 소스 코드는 https://github.com/Megvii-BaseDetection/YOLOX 에서 확인할 수 있다.