
要約
本報告では、YOLOシリーズに対する経験に基づく改良を提示し、新たな高性能検出器「YOLOX」を構築しました。YOLO検出器をアンカー不要(anchor-free)なアーキテクチャに移行し、デカップルドヘッドや最先端のラベル割当戦略であるSimOTAを導入することで、モデルサイズの広範なスケールにおいて最先端の性能を達成しました。パラメータ数がわずか0.91M、FLOPsが1.08GのYOLO-Nanoについて、COCOデータセット上で25.3%のAPを達成し、NanoDetを1.8%のAP向上で上回りました。産業界で最も広く使用されている検出器の一つであるYOLOv3についても、COCO上で47.3%のAPを実現し、現行の最良手法を3.0%のAP向上で上回りました。また、YOLOv4-CSPおよびYOLOv5-Lとほぼ同等のパラメータ数を有するYOLOX-Lについては、Tesla V100上で68.9FPSの推論速度を維持しつつCOCOで50.0%のAPを達成し、YOLOv5-Lを1.8%のAP向上で上回りました。さらに、単一のYOLOX-Lモデルを用いて、CVPR 2021における自動運転ワークショップで開催された「Streaming Perception Challenge」で1位を獲得しました。本報告が実用的なシーンにおける開発者および研究者にとって有用な知見を提供できることを期待し、ONNX、TensorRT、NCNN、OpenVINOをサポートしたデプロイ用バージョンも提供しています。ソースコードは以下のURLにて公開されています:https://github.com/Megvii-BaseDetection/YOLOX。