HyperAIHyperAI

Command Palette

Search for a command to run...

Les DETR surpassent les YOLO pour la détection d'objets en temps réel

Yian Zhao Wenyu Lv Shangliang Xu Jinman Wei Guanzhong Wang Qingqing Dang Yi Liu Jie Chen

Résumé

La série YOLO est devenue le cadre le plus populaire pour la détection d’objets en temps réel grâce à son compromis raisonnable entre vitesse et précision. Toutefois, nous observons que la vitesse et la précision des YOLO sont négativement affectées par le NMS (Non-Maximum Suppression). Récemment, les détecteurs basés sur les Transformers en mode end-to-end (DETR) ont offert une alternative permettant d’éliminer le NMS. Néanmoins, leur coût computationnel élevé limite leur praticabilité et entrave leur capacité à exploiter pleinement l’avantage de l’élimination du NMS. Dans cet article, nous proposons RT-DETR, le premier détecteur end-to-end en temps réel, à notre connaissance, qui résout ce dilemme. Nous construisons RT-DETR en deux étapes, en s’appuyant sur les avancées du DETR : tout d’abord, nous nous concentrons sur la préservation de la précision tout en améliorant la vitesse, puis nous maintenons la vitesse tout en améliorant la précision. Plus précisément, nous concevons un encodeur hybride efficace qui traite rapidement les caractéristiques multi-échelles en décomposant l’interaction intra-échelle et la fusion inter-échelle, afin d’améliorer la vitesse. Ensuite, nous proposons une sélection d’objets initiaux à faible incertitude, qui fournit des requêtes de haute qualité au décodeur, améliorant ainsi la précision. En outre, RT-DETR permet un réglage flexible de la vitesse en ajustant le nombre de couches du décodeur, sans nécessiter de re-entraînement, pour s’adapter à divers scénarios. Notre modèle RT-DETR-R50 / R101 atteint respectivement 53,1 % / 54,3 % d’AP sur COCO et 108 / 74 FPS sur GPU T4, surpassant les YOLOs avancés précédents tant en vitesse qu’en précision. Nous avons également développé des versions étendues de RT-DETR qui surpassent les détecteurs YOLO plus légers (modèles S et M). De plus, RT-DETR-R50 dépasse DINO-R50 de 2,2 % en AP et d’environ 21 fois en FPS. Après pré-entraînement sur Objects365, RT-DETR-R50 / R101 atteint 55,3 % / 56,2 % d’AP. Page du projet : https://zhao-yian.github.io/RTDETR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp