Chengqi Lyu Wenwei Zhang Haian Huang Yue Zhou Yudong Wang Yanyi Liu Shilong Zhang Kai Chen

要約
本論文では、YOLOシリーズを上回り、インスタンスセグメンテーションや回転物体検出などの多くの物体認識タスクに容易に拡張可能な効率的なリアルタイム物体検出器の設計を目指しています。より効率的なモデルアーキテクチャを得るため、大カーネルの深さ方向畳み込みから構成される基本ブロックを持つバックボーンとネックの互換性のある能力を持つアーキテクチャを探求します。さらに、動的ラベル割り当てにおけるマッチングコストの計算時にソフトラベルを導入することで精度向上を図ります。これらの改良と優れた学習手法により、RTMDetと命名された物体検出器はNVIDIA 3090 GPU上で300 FPS以上でCOCOデータセットにおいて52.8% APを達成し、現在の主流の産業用検出器を上回りました。RTMDetは様々なアプリケーションシナリオに対応するtiny(最小)、small(小)、medium(中)、large(大)、extra-large(特大)のモデルサイズで最適なパラメータ-精度トレードオフを実現し、リアルタイムインスタンスセグメンテーションおよび回転物体検出において新しい最先端性能を獲得しました。我々は本実験結果が多様な物体認識タスク向けの汎用的なリアルタイム物体検出器の設計に新たな洞察を与えることを期待しています。コードとモデルは以下のURLで公開されています: https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet.
コードリポジトリ
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| object-detection-in-aerial-images-on-dota-1-0 | RTMDet-R-l (single scale) | mAP: 80.16% |
| object-detection-in-aerial-images-on-dota-1-0 | RTMDet-R-l | mAP: 81.33% |
| object-detection-in-aerial-images-on-hrsc2016 | RTMDet-R-tiny | mAP-07: 90.6 mAP-12: 97.10 |
| real-time-instance-segmentation-on-mscoco | RTMDet-Ins-l | - |
| real-time-instance-segmentation-on-mscoco | RTMDet-Ins-x | - |
| real-time-instance-segmentation-on-mscoco | RTMDet-Ins-m | - |
| real-time-instance-segmentation-on-mscoco | RTMDet-Ins-s | - |
| real-time-instance-segmentation-on-mscoco-1k | RTMDet-Ins-x | APM: 49.0 |
| real-time-instance-segmentation-on-multi30k | RTMDet-Ins-s | mask AP: 38.7 |
| real-time-object-detection-on-coco | RTMDet | box AP: 52.8 |