HyperAI

Dans les applications exigeant une réactivité de l'ordre de la milliseconde, telles que la conduite autonome, le contrôle qualité industriel et la surveillance de sécurité, la détection d'objets en temps réel demeure un domaine technologique extrêmement complexe. Au cours de la dernière décennie, la série YOLO s'est imposée comme la solution de référence dans ce domaine grâce à son architecture légère et performante. Du YOLO initial aux récents YOLOv11 et YOLOv12, ce modèle a constamment cherché à optimiser le compromis entre vitesse et précision.

Cependant, même après de multiples évolutions,Les mécanismes sous-jacents de la série YOLO se heurtent encore à des obstacles communs :Soit elle ne peut effectuer qu'une agrégation locale au sein d'un champ réceptif fixe, comme la convolution, soit elle peut étendre le champ réceptif comme l'auto-attention, mais en raison de son coût de calcul élevé, elle doit être « régionalisée » lors de son déploiement réel, perdant ainsi une véritable perspective globale. Plus important encore,L'auto-attention modélise essentiellement la relation entre paires de pixels et ne peut exprimer que des « corrélations binaires », ce qui rend difficile la capture de structures sémantiques plus complexes de type plusieurs-à-plusieurs dans la scène.Ces structures sont essentielles pour que les modèles puissent comprendre des scènes encombrées, des objets détaillés ou des relations visuelles très complexes.

Champ récepteur : Dans la voie visuelle, les photorécepteurs (bâtonnets et cônes) de la rétine captent les signaux lumineux, les convertissent en signaux neuronaux et activent les cellules du corps genouillé latéral et les cellules ganglionnaires du cortex visuel. Les zones stimulées par ces cellules ganglionnaires constituent les champs récepteurs. Les champs récepteurs varient selon les sens.

C’est pourquoi l’architecture YOLO traditionnelle rencontre souvent des problèmes de performance face à des scénarios complexes : soit elle ne parvient pas à comprendre pleinement les dépendances à long terme, soit elle a du mal à exprimer des relations sémantiques profondes à différentes échelles.

En réponse à ce problème persistant,Une équipe de recherche conjointe composée de l'Université Tsinghua, de l'Université de technologie de Taiyuan, de l'Université Jiaotong de Xi'an et d'autres universités a proposé un nouveau modèle de détection d'objets — YOLOv13 — qui étend la « modélisation de corrélation » du binaire à une véritable structure d'ordre supérieur.L'équipe de recherche a introduit un composant central : HyperACE (Hypergraph-based Adaptive Correlation Enhancement). HyperACE traite les pixels des cartes de caractéristiques multi-échelles comme des sommets et explore de manière adaptative les corrélations d'ordre supérieur entre les sommets grâce à des blocs de construction d'hyperarêtes apprenables.Par la suite, grâce à un module de transfert d'informations à complexité linéaire, guidé par des corrélations d'ordre supérieur, les caractéristiques multi-échelles sont efficacement agrégées pour permettre la perception visuelle de scènes complexes. De plus, HyperACE intègre également une modélisation des corrélations d'ordre inférieur pour une perception visuelle encore plus complète.

S’appuyant sur HyperACE, YOLOv13 a en outre proposé FullPAD (Full-Pipeline Aggregation-and-Distribution) :Le modèle effectue d'abord une amélioration de la pertinence à l'échelle globale, puis distribue les caractéristiques améliorées aux différentes étapes de la colonne vertébrale, du cou et de la tête, permettant ainsi à une sémantique de haut niveau de s'appliquer à l'ensemble du processus de détection, améliorant la propagation du gradient et les performances globales. De plus, les auteurs ont remplacé le noyau de convolution traditionnel de grande taille par un module de convolution séparable en profondeur plus léger, réduisant ainsi le nombre de paramètres et le coût de calcul tout en préservant la précision.

Les résultats finaux montrent que, des petits modèles (séries N) aux grands modèles,YOLOv13 a réalisé des améliorations significatives sur MS COCO, atteignant des performances de détection de pointe avec moins de paramètres et de FLOPs.Parmi eux, YOLOv13-N a amélioré le mAP de 3,01 TP3T par rapport à YOLOv11-N et de 1,51 TP3T par rapport à YOLOv12-N.

Le tutoriel « Déploiement en un clic de Yolov13 » est actuellement disponible dans la section « Tutoriels » du site web d'HyperAI. Cliquez sur le lien ci-dessous pour accéder au tutoriel de déploiement en un clic ⬇️

Lien du tutoriel :

https://go.hyper.ai/EHfXY

Voir les articles connexes :

https://go.hyper.ai/Gzu7K

Essai de démonstration

1. Après avoir accédé à la page d'accueil d'hyper.ai, sélectionnez « Déploiement en un clic de Yolov13 », ou rendez-vous sur la page « Tutoriels » et sélectionnez « Exécuter ce tutoriel en ligne ».

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA GeForce RTX 5090 » et « PyTorch », puis choisissez « Pay As You Go » ou « Daily Plan/Weekly Plan/Monthly Plan » selon vos besoins, puis cliquez sur « Continuer l’exécution de la tâche ».

4. Patientez pendant l'allocation des ressources. Le premier clonage prendra environ 3 minutes. Une fois l'état passé à « En cours d'exécution », cliquez sur la flèche à côté de « Adresse API » pour accéder à la page de démonstration.

Démonstration d'effet

Après avoir accédé à la page de démonstration, téléchargez votre image/vidéo et cliquez sur « Détecter les objets » pour lancer la démonstration.

Description des paramètres :

Modèles : yolov13n.pt (nano), yolov13s.pt (petit), yolov13l.pt (grand), yolov13x.pt (très grand). Les modèles plus grands offrent généralement une meilleure précision (mAP), mais aussi un plus grand nombre de paramètres, un coût de calcul plus élevé (FLOPs) et un temps d’inférence plus long.

* Seuil de confiance : Seuil de confiance.

* Seuil IoU : Seuil d'intersection sur union (IoU), utilisé pour NMS.

* Nombre maximal de détections par image : le nombre maximal de boîtes de détection par image.

L'éditeur a utilisé le modèle « yolov13s.pt » comme exemple pour les tests, et les résultats sont présentés ci-dessous.

Le tutoriel ci-dessus est celui recommandé par HyperAI cette fois-ci. Bienvenue à tous pour le découvrir !

Lien du tutoriel :

https://go.hyper.ai/EHfXY

Command Palette

Tutoriel En Ligne | La Détection d'objets Entre Dans l'ère De La « conscience Mondiale » : l'université Tsinghua Et d'autres Institutions Publient YOLOv13, Réalisant Des Avancées Majeures En Termes De Vitesse Et De précision.

Essai de démonstration

Démonstration d'effet