YOLOv10 : Détection d'objets en temps réel de bout en bout

Ces dernières années, les YOLOs (You Only Look Once) sont devenus le paradigme prédominant dans le domaine de la détection d'objets en temps réel grâce à leur équilibre efficace entre coût computationnel et performance de détection. Les chercheurs ont exploré les conceptions architecturales, les objectifs d'optimisation, les stratégies d'augmentation des données et d'autres aspects pour les YOLOs, réalisant des progrès notables. Cependant, la dépendance au non-maximum suppression (NMS) pour le post-traitement entrave le déploiement end-to-end des YOLOs et affecte négativement la latence d'inférence. De plus, la conception des différents composants des YOLOs manque d'une inspection complète et approfondie, ce qui entraîne une redondance computationnelle notable et limite les capacités du modèle. Cela entraîne une efficacité sous-optimale, tout en offrant un potentiel considérable pour l'amélioration des performances. Dans cette étude, nous visons à améliorer davantage la frontière performance-efficacité des YOLOs à la fois sur le plan du post-traitement et de l'architecture du modèle. À cet effet, nous présentons tout d'abord les affectations duales cohérentes pour l'entraînement sans NMS des YOLOs, ce qui offre une performance compétitive et une faible latence d'inférence simultanément. De plus, nous introduisons une stratégie de conception de modèles globale axée sur l'efficacité et la précision pour les YOLOs. Nous optimisons de manière exhaustive divers composants des YOLOs en tenant compte à la fois de l'efficacité et de la précision, ce qui réduit considérablement le surcoût computationnel et améliore les capacités du modèle. Le résultat de nos efforts est une nouvelle génération de la série YOLO pour la détection d'objets end-to-end en temps réel, baptisée YOLOv10. Des expériences approfondies montrent que YOLOv10 atteint des performances et une efficacité de pointe sur différentes échelles de modèles. Par exemple, notre YOLOv10-S est 1,8 fois plus rapide que RT-DETR-R18 avec une AP similaire sur COCO, tout en ayant 2,8 fois moins de paramètres et de FLOPs (Floating Point Operations). Comparé à YOLOv9-C, YOLOv10-B présente 46 % moins de latence et 25 % moins de paramètres pour une performance identique.