Détection D'objets De Bout En Bout En Temps Réel YOLOv10
YOLOv10 est la dernière génération de système de détection d'objets de bout en bout en temps réel développé par des chercheurs de l'Université Tsinghua. Il est construit sur la base du package Python Ultralytics et vise à combler les lacunes des versions précédentes de YOLO en matière de post-traitement et d'architecture de modèle. En éliminant la suppression non maximale (NMS) et en optimisant divers composants du modèle, YOLOv10 atteint des performances de pointe tout en réduisant considérablement la surcharge de calcul. L'équipe de recherche a publié un article « YOLOv10 : Détection d'objets de bout en bout en temps réel »Le cadre d'étude est expliqué en détail.
Arrière-plan
Au cours des dernières années, YOLO est devenu le paradigme dominant dans le domaine de la détection d’objets en temps réel en raison de son équilibre efficace entre le coût de calcul et les performances de détection. Les chercheurs ont exploré la conception de l’architecture de YOLO, les objectifs d’optimisation, les stratégies d’amélioration des données, etc., et ont réalisé des progrès significatifs. Cependant, le recours à la suppression non maximale (NMS) pour le post-traitement entrave le déploiement de bout en bout de YOLO et affecte négativement la latence d'inférence. De plus, la conception de chaque composant de YOLO manque d’un examen complet et approfondi, ce qui conduit à une redondance informatique évidente et limite les capacités du modèle. Il en résulte une efficacité sous-optimale tout en présentant un potentiel considérable d’amélioration des performances.
Introduction à la recherche YOLOv10
Dans ce travail, l'équipe de recherche vise à repousser encore les limites de l'efficacité des performances de YOLO sous deux aspects : le post-traitement et l'architecture du modèle. À cette fin, l’équipe de recherche a d’abord proposé une double allocation cohérente pour la formation sans NMS YOLO, qui apporte à la fois des performances compétitives et une faible latence d’inférence. En outre, l’équipe de recherche a introduit une stratégie globale de conception de modèle axée sur l’efficacité et la précision pour YOLO. L'équipe de recherche a optimisé de manière exhaustive chaque composant de YOLO du point de vue de l'efficacité et de la précision, réduisant considérablement la charge de calcul et améliorant les performances. Le résultat des efforts de l'équipe de recherche est la prochaine génération de la famille YOLO pour la détection d'objets de bout en bout en temps réel, appelée YOLOv10. Des expériences approfondies montrent que YOLOv10 atteint des performances et une efficacité de pointe à différentes tailles de modèles. Par exemple, le YOLOv10-S de l'équipe de recherche est 1,8 fois plus rapide que le RT-DETR-R18 à un AP similaire sur COCO. Comparé à YOLOv9-C, YOLOv10-B réduit la latence de 46% et les paramètres de 25% avec les mêmes performances.
L'architecture de YOLOv10 comprend les composants clés suivants :
- Réseau fédérateur:Responsable de l'extraction de fonctionnalités, en utilisant une version améliorée de CSPNet (Cross Stage Partial Network) pour améliorer le flux de gradient et réduire la redondance de calcul.
- cou:Conçu pour regrouper des fonctionnalités de différentes échelles et réaliser une fusion efficace de fonctionnalités multi-échelles via la couche PAN (Path Aggregation Network).
- Un-à-plusieurs:Génère plusieurs prédictions pour chaque objet pendant la formation, fournissant des signaux de supervision riches et améliorant la précision de l'apprentissage.
- Un à un:Génère une seule meilleure prédiction pour chaque objet lors de l'inférence sans NMS, réduisant la latence et améliorant l'efficacité.
YOLOv10 dispose de plusieurs tailles de modèles pour répondre aux différents besoins d'application :
- YOLOv10-N:Version Nano, adaptée aux environnements aux ressources extrêmement limitées.
- YOLOv10-S:Petite version, équilibrant vitesse et précision.
- YOLOv10-M:Version moyenne, adaptée à un usage général.
- YOLOv10-B:Version équilibrée avec largeur augmentée pour une meilleure précision.
- YOLOv10-L:Version plus grande qui améliore la précision au détriment de ressources de calcul accrues.
- YOLOv10-X:Version extra large pour une précision et des performances maximales.
YOLOv10 a été largement testé sur des benchmarks standard tels que COCO, démontrant des performances et une efficacité supérieures, avec des améliorations significatives de la latence et de la précision par rapport aux versions précédentes et à d'autres détecteurs contemporains.
Références
【1】YOLOv10 : Détection d'objets de bout en bout en temps réel