17日前

DAMO-YOLO:リアルタイム物体検出設計に関する報告

Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
DAMO-YOLO:リアルタイム物体検出設計に関する報告
要約

本報告では、最新のYOLOシリーズを上回る高い性能を達成する高速かつ高精度な物体検出手法であるDAMO-YOLOを紹介する。DAMO-YOLOは、ニューラルアーキテクチャ探索(Neural Architecture Search, NAS)、効率的な再パラメータ化された汎用FPN(Reparameterized Generalized-FPN, RepGFPN)、アライメントOTAによるラベル割当を備えた軽量ヘッド、および知識蒸留(distillation)強化といった新技術を導入してYOLOを拡張したものである。特に、最大エントロピーの原理に基づくMAE-NASを用いて、低遅延かつ高性能という制約下で検出バックボーンを探索し、空間ピラミッドプーリングとフォーカスモジュールを備えたResNet/CSP型構造を生成した。ネックおよびヘッドの設計においては、「大きなネック、小さなヘッド(large neck, small head)」という原則を採用した。検出器のネックとして、高速化されたクイーン結合(queen-fusion)を備えた汎用FPNを導入し、CSPNetを効率的な層統合ネットワーク(Efficient Layer Aggregation Networks, ELAN)と再パラメータ化技術でアップグレードした。また、検出ヘッドのサイズが検出性能に与える影響を検証した結果、重いネックに1つのタスクプロジェクション層のみを設ける構成がより優れた結果をもたらすことが明らかになった。さらに、ラベル割当におけるアライメントの不整合問題を解決するために、AlignedOTAを提案した。また、性能をさらに向上させるための知識蒸留スキームも導入した。これらの新技術を統合して、さまざまな用途に応じた複数のスケールモデル群を構築した。一般産業用途を想定した場合、DAMO-YOLO-T/S/M/Lの4種類のモデルを提案する。これらはT4 GPU上でそれぞれ2.78/3.83/5.62/7.95 msの遅延でCOCOデータセットにおいて43.6/47.7/50.2/51.9 mAPを達成する。また、計算能力に制限のあるエッジデバイス向けには、軽量モデルDAMO-YOLO-Ns/Nm/Nlを新たに提案した。これらはX86-CPU上でそれぞれ4.08/5.05/6.69 msの遅延でCOCOデータセットにおいて32.3/38.2/40.5 mAPを達成する。本研究で提案する汎用モデルおよび軽量モデルは、それぞれの適用シーンにおいて、他のYOLOシリーズモデルを上回る性能を実現した。

DAMO-YOLO:リアルタイム物体検出設計に関する報告 | 最新論文 | HyperAI超神経