RTMDet : Une étude empirique sur la conception de détecteurs d'objets en temps réel
RTMDet : Une étude empirique sur la conception de détecteurs d'objets en temps réel
Chengqi Lyu Wenwei Zhang Haian Huang Yue Zhou Yudong Wang Yanyi Liu Shilong Zhang Kai Chen

Résumé
Dans cet article, nous visons à concevoir un détecteur d'objets en temps réel efficace qui dépasse la série YOLO et est facilement extensible pour de nombreuses tâches de reconnaissance d'objets, telles que la segmentation d'instances et la détection d'objets rotatifs. Pour obtenir une architecture de modèle plus efficace, nous explorons une architecture qui possède des capacités compatibles dans le backbone et le cou (neck), construite à partir d'un bloc de construction de base composé de convolutions en profondeur à noyaux larges. Nous introduisons également des étiquettes douces lors du calcul des coûts de correspondance dans l'affectation dynamique des étiquettes afin d'améliorer la précision. Associées à de meilleures techniques d'entraînement, le détecteur d'objets résultant, nommé RTMDet, atteint 52,8 % AP sur COCO avec plus de 300 FPS sur une GPU NVIDIA 3090, surpassant les détecteurs industriels actuels principaux. RTMDet offre le meilleur compromis entre les paramètres et la précision avec des tailles de modèles miniatures/petites/moyennes/grandes/très grandes pour divers scénarios d'application, et obtient des performances nouvelles et sans équivalent dans la segmentation d'instances en temps réel et la détection d'objets rotatifs. Nous espérons que les résultats expérimentaux puissent apporter de nouvelles perspectives pour la conception de détecteurs d'objets polyvalents en temps réel pour de nombreuses tâches de reconnaissance d'objets. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet.Note : - "Backbone" est souvent utilisé tel quel en français dans le domaine technologique.- "Neck" peut être traduit par "cou" ou "module intermédiaire", selon le contexte.- "Large-kernel depth-wise convolutions" est traduit littéralement car c'est un terme technique spécifique.- "Soft labels" est traduit par "étiquettes douces", un terme couramment utilisé en français dans ce contexte.- "FPS" (frames per second) est conservé tel quel car c'est une abréviation standard.- "COCO" (Common Objects in Context) est conservé tel quel car c'est un nom propre.
Dépôts de code
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| object-detection-in-aerial-images-on-dota-1-0 | RTMDet-R-l (single scale) | mAP: 80.16% |
| object-detection-in-aerial-images-on-dota-1-0 | RTMDet-R-l | mAP: 81.33% |
| object-detection-in-aerial-images-on-hrsc2016 | RTMDet-R-tiny | mAP-07: 90.6 mAP-12: 97.10 |
| real-time-instance-segmentation-on-mscoco | RTMDet-Ins-l | - |
| real-time-instance-segmentation-on-mscoco | RTMDet-Ins-x | - |
| real-time-instance-segmentation-on-mscoco | RTMDet-Ins-m | - |
| real-time-instance-segmentation-on-mscoco | RTMDet-Ins-s | - |
| real-time-instance-segmentation-on-mscoco-1k | RTMDet-Ins-x | APM: 49.0 |
| real-time-instance-segmentation-on-multi30k | RTMDet-Ins-s | mask AP: 38.7 |
| real-time-object-detection-on-coco | RTMDet | box AP: 52.8 |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.