HyperAI超神经

1. Introduction au tutoriel

YOLOv11 est la dernière itération du détecteur d'objets en temps réel développé par l'équipe Ultralytics et a été annoncé lors de l'événement YOLO Vision 2024 (YV24) le 30 septembre 2024. YOLOv11 offre des améliorations significatives en termes de précision, de vitesse et d'efficacité, ce qui en fait un outil puissant pour les tâches de vision par ordinateur. Le lancement de YOLOv11 vise à simplifier le processus de développement et à fournir une pierre angulaire pour l’intégration ultérieure. Il offre des améliorations significatives en termes d’architecture et de méthodes de formation par rapport aux versions précédentes du modèle YOLO, ce qui en fait un choix polyvalent pour une variété de tâches de vision par ordinateur. Le lancement de YOLOv11 marque une nouvelle étape dans la technologie de détection d’objets. Il établit non seulement une nouvelle référence en termes de vitesse et de précision, mais plus important encore, sa conception d'architecture de modèle innovante rend les tâches de détection d'objets complexes à portée de main.

De plus, le processus d’installation de YOLOv11 est relativement simple. Les développeurs peuvent télécharger le dernier code source depuis sa page GitHub et suivre le guide pour effectuer des tests en ligne de commande des prédictions du modèle. Ce tutoriel utilise YOLOv11. Le modèle et l'environnement associé ont été installés. Vous pouvez directement cloner et ouvrir l'adresse API pour effectuer l'inférence du modèle et réaliser la détection d'image, la segmentation, l'estimation de la pose, le suivi et la classification.

Les principales améliorations de YOLOv11 incluent :

Extraction de fonctionnalités améliorée : architecture de la colonne vertébrale et du cou améliorée pour une détection d'objets plus précise.
Vitesse de traitement optimisée : la nouvelle conception de l'architecture et les nouvelles méthodes de formation permettent une vitesse de traitement plus rapide.
Précision supérieure avec moins de paramètres : sur l'ensemble de données COCO, YOLOv11m atteint une précision moyenne (mAP) supérieure à celle de YOLOv8m tout en utilisant moins de paramètres.
Forte adaptabilité environnementale : YOLOv11 peut être déployé dans une variété d'environnements, notamment les appareils de pointe, les plates-formes cloud et les systèmes prenant en charge les GPU NVIDIA.
Prise en charge d'une large gamme de tâches : YOLOv11 prend en charge une variété de tâches de vision par ordinateur telles que la détection d'objets, la segmentation d'instances, la classification d'images, l'estimation de pose et la détection d'objets orientés (OBB).

Historique du développement de YOLO

YOLO (You Only Look Once) est un modèle populaire de détection d'objets et de segmentation d'images développé par Joseph Redmon et Ali Farhadi à l'Université de Washington. YOLO a été lancé en 2015 et a rapidement gagné en popularité pour sa grande vitesse et sa précision.

YOLOv2, publié en 2016, a amélioré le modèle original en incorporant la normalisation par lots, les boîtes d'ancrage et le clustering des dimensions.
YOLOv3, lancé en 2018, a encore amélioré les performances du modèle en utilisant un réseau fédérateur plus efficace, un multi-ancrage et un pooling pyramidal spatial.
YOLOv4 est sorti en 2020, introduisant des innovations telles que l'augmentation des données Mosaic, une nouvelle tête de détection sans ancrage et une nouvelle fonction de perte.
- Tutoriel :DeepSOCIAL réalise une surveillance de la distance de foule basée sur YOLOv4 et trie le suivi multi-cibles
YOLOv5 améliore encore les performances du modèle et ajoute de nouvelles fonctionnalités telles que l'optimisation des hyperparamètres, le suivi intégré des expériences et l'exportation automatique vers des formats d'exportation courants.
- Tutoriel :Modèle de suivi multi-cibles en temps réel YOLOv5_deepsort
YOLOv6 a été open-source par Meituan en 2022 et est actuellement utilisé dans de nombreux robots de livraison autonomes de l'entreprise.
YOLOv7 ajoute des tâches supplémentaires telles que l'estimation de la pose sur l'ensemble de données de points clés COCO.
- Tutoriel :Comment former et utiliser un modèle YOLOv7 personnalisé
YOLOv8 a été publié par Ultralytics en 2023. YOLOv8 introduit de nouvelles fonctionnalités et améliorations pour améliorer les performances, la flexibilité et l'efficacité, prenant en charge une gamme complète de tâches d'IA visuelle.
- Tutoriel :Entraînement de YOLOv8 avec des données personnalisées
YOLOv9 introduit des méthodes innovantes telles que les informations de gradient programmables (PGI) et le réseau d'agrégation de couches efficaces généralisées (GELAN).
YOLOv10 a été créé par des chercheurs de l'Université Tsinghua à l'aide de ce package. Créé par le package UltralyticsPython. Cette version réalise des progrès dans la détection d'objets en temps réel en introduisant une tête de bout en bout et en éliminant l'exigence de suppression non maximale (NMS).
- Tutoriel :Détection d'objets de bout en bout en temps réel YOLOv10
YOLOv11 🚀 NOUVEAU : Le dernier modèle YOLO d'Ultralytics offre des performances de pointe (SOTA) dans de multiples tâches, notamment la détection, la segmentation, l'estimation de pose, le suivi et la classification, en tirant parti des capacités d'un large éventail d'applications et de domaines d'IA.
- Tutoriel :Déploiement en un clic de YOLOv11

2. Étapes de l'opération

Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Ce tutoriel contient 5 fonctions :

Détection d'objets
Segmentation des instances
Classification des images
Estimation de la pose
Détection d'objet de positionnement

1. Détection d'objets

Détecteur d'objetsLa sortie est un ensemble de cadres de délimitation entourant les objets de l'image, ainsi qu'une étiquette de classe et un score de confiance pour chaque cadre de délimitation. La détection d'objets est un bon choix si vous devez identifier des objets intéressants dans une scène mais que vous n'avez pas besoin de connaître leur emplacement ou leur forme exacts.

2. Segmentation des instances

Modèle de segmentation d'instanceLa sortie est un ensemble de masques ou de contours qui délimitent chaque objet de l'image, ainsi qu'une étiquette de classe et un score de confiance pour chaque objet. La segmentation d'instance est très utile lorsque vous devez savoir non seulement où se trouvent les objets dans une image, mais également leurs formes exactes.

3. Classification des images

La sortie d’un classificateur d’images est une étiquette de classe unique et un score de confiance. La classification d'images est utile lorsque vous avez uniquement besoin de savoir à quelle classe appartient une image, sans connaître l'emplacement ou la forme exacte des objets de cette classe.

4. Estimation de la pose

L'estimation de pose est une tâche qui consiste à identifier les emplacements de points spécifiques (souvent appelés points clés) dans une image. Les points clés peuvent représenter des parties d'un objet, telles que des articulations, des points de repère ou d'autres caractéristiques saillantes. L'emplacement des points clés est généralement exprimé sous la forme d'un ensemble de coordonnées 2D [x, y] ou 3D [x, y, visible].

La sortie d'un modèle d'estimation de pose est un ensemble de points représentant les points clés des objets de l'image et comprend généralement également un score de confiance pour chaque point. L'estimation de pose est un bon choix lorsque vous devez identifier des parties spécifiques d'objets dans une scène et leur position les unes par rapport aux autres.

5. Détection d'objets dirigés

La détection d'objets orientés va plus loin que la détection d'objets en introduisant un angle supplémentaire pour localiser plus précisément les objets dans une image.

La sortie d'un détecteur d'objets orienté est un ensemble de boîtes englobantes pivotées qui entourent avec précision les objets de l'image, ainsi qu'une étiquette de classe et un score de confiance pour chaque boîte englobante. La détection d'objets est un bon choix lorsque vous devez identifier des objets intéressants dans une scène, mais que vous n'avez pas besoin de connaître leur emplacement exact ou leur forme exacte.

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓