HyperAIHyperAI
il y a 17 jours

Les DETR surpassent les YOLO pour la détection d'objets en temps réel

Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen
Les DETR surpassent les YOLO pour la détection d'objets en temps réel
Résumé

La série YOLO est devenue le cadre le plus populaire pour la détection d’objets en temps réel grâce à son compromis raisonnable entre vitesse et précision. Toutefois, nous observons que la vitesse et la précision des YOLO sont négativement affectées par le NMS (Non-Maximum Suppression). Récemment, les détecteurs basés sur les Transformers en mode end-to-end (DETR) ont offert une alternative permettant d’éliminer le NMS. Néanmoins, leur coût computationnel élevé limite leur praticabilité et entrave leur capacité à exploiter pleinement l’avantage de l’élimination du NMS. Dans cet article, nous proposons RT-DETR, le premier détecteur end-to-end en temps réel, à notre connaissance, qui résout ce dilemme. Nous construisons RT-DETR en deux étapes, en s’appuyant sur les avancées du DETR : tout d’abord, nous nous concentrons sur la préservation de la précision tout en améliorant la vitesse, puis nous maintenons la vitesse tout en améliorant la précision. Plus précisément, nous concevons un encodeur hybride efficace qui traite rapidement les caractéristiques multi-échelles en décomposant l’interaction intra-échelle et la fusion inter-échelle, afin d’améliorer la vitesse. Ensuite, nous proposons une sélection d’objets initiaux à faible incertitude, qui fournit des requêtes de haute qualité au décodeur, améliorant ainsi la précision. En outre, RT-DETR permet un réglage flexible de la vitesse en ajustant le nombre de couches du décodeur, sans nécessiter de re-entraînement, pour s’adapter à divers scénarios. Notre modèle RT-DETR-R50 / R101 atteint respectivement 53,1 % / 54,3 % d’AP sur COCO et 108 / 74 FPS sur GPU T4, surpassant les YOLOs avancés précédents tant en vitesse qu’en précision. Nous avons également développé des versions étendues de RT-DETR qui surpassent les détecteurs YOLO plus légers (modèles S et M). De plus, RT-DETR-R50 dépasse DINO-R50 de 2,2 % en AP et d’environ 21 fois en FPS. Après pré-entraînement sur Objects365, RT-DETR-R50 / R101 atteint 55,3 % / 56,2 % d’AP. Page du projet : https://zhao-yian.github.io/RTDETR.