DETRがリアルタイムオブジェクト検出においてYOLOを上回る

YOLOシリーズは、速度と精度の間で適切なトレードオフを実現していることから、リアルタイムオブジェクト検出の分野で最も人気のあるフレームワークとして広く採用されている。しかし、本研究では、YOLOの速度および精度がNMS(Non-Maximum Suppression)の影響を受けて低下していることを観察した。近年、エンドツーエンドのTransformerベースの検出器(DETR)がNMSを排除する代替手段として登場した。しかしながら、その高い計算コストが実用性を制限しており、NMSを排除するという利点を十分に活かすことが難しい状況にある。本論文では、我々が知る限りで初めて、上記のジレンマを解決するリアルタイムエンドツーエンドオブジェクト検出器である「Real-Time DEtection TRansformer(RT-DETR)」を提案する。RT-DETRは、最先端のDETRを基盤とし、2段階にわたって構築される。第一段階では、精度を維持しつつ速度を向上させることに注力し、第二段階では速度を維持しつつ精度を改善することを目的とする。具体的には、スケール内相互作用とスケール間融合を分離することで、マルチスケール特徴の処理を効率化するハイブリッドエンコーダーを設計した。さらに、不確実性を最小限に抑えるクエリ選択機構を提案し、デコーダーに高品質な初期クエリを供給することで、精度の向上を実現した。また、デコーダー層の数を調整することで、再トレーニングを伴わずに柔軟に処理速度をチューニング可能であり、さまざまなシナリオに適応できる。実験結果として、RT-DETR-R50 / R101はCOCOデータセット上で53.1% / 54.3%のAPを達成し、T4 GPU上では108 / 74 FPSの処理速度を実現し、従来の最先端YOLOモデルと比較して速度と精度の両面で優位性を示した。さらに、スケーリングされたRT-DETRは、軽量なYOLO検出器(SおよびMモデル)を上回る性能を発揮した。特に、RT-DETR-R50はDINO-R50と比較して精度で2.2%の向上と、処理速度で約21倍の高速化を達成した。Objects365で事前学習を施した後、RT-DETR-R50 / R101はそれぞれ55.3% / 56.2%のAPを達成した。プロジェクトページ:https://zhao-yian.github.io/RTDETR