YOLOv6:産業応用向けの単段階物体検出フレームワーク

長年にわたり、YOLOシリーズは効率的なオブジェクト検出における業界標準として広く採用されてきました。YOLOコミュニティは急速に発展し、多様なハードウェアプラットフォームおよび膨大な実用シーンにおける応用を豊かにしました。本技術報告書では、産業応用を念頭に置き、その限界をさらに一歩進める挑戦を試みます。現実環境における速度と精度の多様な要件を踏まえ、業界および学術界における最新のオブジェクト検出技術の進展を広範に調査しました。具体的には、最近のネットワーク設計、トレーニング戦略、推論技術、量子化手法、最適化技術などから多くのアイデアを統合・吸収しました。さらに、自らの知見と実践を加味し、さまざまなスケールのデプロイ可能ネットワークのセットを構築することで、多様なユースケースに対応できるよう工夫しました。YOLOの開発者各位のご許可を得て、本成果物を「YOLOv6」と命名しました。今後、ユーザーおよび貢献者の皆様からのフィードバックや改善提案を心より歓迎いたします。性能の概要を示すと、YOLOv6-NはNVIDIA Tesla T4 GPU上で1234 FPSのスループットでCOCOデータセットにおいて35.9%のAPを達成しています。YOLOv6-Sは495 FPSで43.5%のAPを記録し、同スケールの主流モデル(YOLOv5-S、YOLOX-S、PPYOLOE-S)を上回っています。さらに、YOLOv6-Sの量子化版は869 FPSで43.3%のAPを達成し、新たなSOTA(State-of-the-Art)を記録しました。また、YOLOv6-MおよびYOLOv6-Lも、類似の推論速度を持つ他の検出器と比較して、より高い精度(49.5% / 52.3%)を実現しています。各構成要素の有効性を慎重に実験により検証しました。本研究のコードは、https://github.com/meituan/YOLOv6 にて公開されています。