2ヶ月前

YOLOv10: 実時間のエンドツーエンド物体検出

Wang, Ao ; Chen, Hui ; Liu, Lihao ; Chen, Kai ; Lin, Zijia ; Han, Jungong ; Ding, Guiguang

要約

近年、YOLO（You Only Look Once）はリアルタイム物体検出分野における主要なパラダイムとして台頭しており、計算コストと検出性能の効果的なバランスによりその地位を確立しています。研究者たちはYOLOのアーキテクチャ設計、最適化目標、データ拡張戦略などについて探求し、著しい進歩を遂げています。しかし、非最大値抑制（Non-Maximum Suppression, NMS）に依存した後処理がYOLOのエンドツーエンド展開を妨げ、推論遅延に悪影響を与えています。また、YOLOの各コンポーネントの設計には全体的かつ詳細な検討が欠けており、計算上の冗長性が顕著でモデルの能力が制限されています。これにより、効率性が最適化されておらず、性能向上の大きな余地があります。本研究では、後処理とモデルアーキテクチャの両面からYOLOの性能-効率境界をさらに進めることが目指されました。まず、NMSなしでのYOLO訓練のために一貫した二重割り当てを提案します。これは競争力のある性能と低い推論遅延を同時に実現します。さらに、全体的な効率-精度駆動型モデル設計戦略をYOLOに導入しました。我々は効率性和精度性の観点からYOLOの各種コンポーネントを包括的に最適化し、計算負荷を大幅に削減するとともに能力を向上させました。これらの努力の結果として生まれた新しい世代のYOLOシリーズはリアルタイムエンドツーエンド物体検出用であり、「YOLOv10」と名付けられました。広範な実験により、YOLOv10は様々なモデルスケールにおいて最先端の性能と効率を達成していることが示されました。例えば、COCOデータセット上で同程度のAP（Average Precision）を持つRT-DETR-R18と比較して、私たちのYOLOv10-Sは1.8倍速く、2.8倍少ないパラメータ数とFLOPs（Floating Point Operations per Second）を持っています。また、同じ性能を持つYOLORv9-Cと比較して、YOLOv10-Bは46%少ない遅延时间和25%少ないパラメータ数で動作します。