YOLOE : Tout Voir En Temps Réel

1. Introduction au tutoriel
YOLOE est un nouveau modèle visuel en temps réel proposé par une équipe de recherche de l'Université Tsinghua en 2025, qui vise à atteindre l'objectif de « tout voir en temps réel ». Il hérite des caractéristiques en temps réel et efficaces de la série de modèles YOLO et, sur cette base, intègre en profondeur les capacités d'apprentissage zéro coup et d'invite multimodale, et peut prendre en charge la détection et la segmentation de cibles dans plusieurs scénarios tels que le texte, la vision et l'invite silencieuse. Les résultats pertinents de l'article sontYOLOE : voir tout en temps réel".
Fonctionnalités principales
- Tout type de texte
- Invites multimodales:
- Repères visuels (boîtes/points/formes dessinées à la main/images de référence)
- Repères visuels (boîtes/points/formes dessinées à la main/images de référence)
- Détection silencieuse entièrement automatique – Identifier automatiquement les objets de la scène
Environnement de démonstration : séries YOLOv8e/YOLOv11e + RTX4090
2. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Démonstration de la fonction YOLOE
1. Détection d'invite de texte
- Tout type de texte
- Mots d'invite personnalisés: Permet à l'utilisateur de saisir du texte arbitraire (les résultats de la reconnaissance peuvent varier en fonction de la complexité sémantique)


2. Indices visuels multimodaux
- 🟦 Détection de sélection de boîte (boîtes b)
bboxes : Par exemple, si vous téléchargez une image contenant de nombreuses personnes et que vous souhaitez détecter des personnes dans l'image, vous pouvez utiliser des bboxes pour encadrer une personne. Lors de l'inférence, le modèle identifiera toutes les personnes de l'image en fonction du contenu des bbox.
Plusieurs bboxes peuvent être dessinées pour obtenir des repères visuels plus précis. - ✏️ Zone de clic/dessin (masques)
Masques : Par exemple, si vous téléchargez une image contenant de nombreuses personnes et que vous souhaitez détecter des personnes dans l'image, vous pouvez utiliser des masques pour couvrir une personne. Lors de l’inférence, le modèle reconnaîtra toutes les personnes de l’image en fonction du contenu des masques.
Vous pouvez dessiner plusieurs masques pour obtenir des repères visuels plus précis. - 🖼️ Comparaison d'images de référence (Intra/Cross)
Intra : exploitez les bbox ou les masques sur l'image actuelle et effectuez une inférence sur l'image actuelle.
Croix : Exploitez les bbox ou les masques sur l'image actuelle et déduisez-les sur d'autres images.
Concepts de base
modèle | Description fonctionnelle | Scénario d'application |
---|---|---|
Intra-image | Modélisation des relations entre objets au sein d'un même graphique | Positionnement précis de la cible locale |
Image croisée | Correspondance des caractéristiques entre images | Récupération d'objets similaires |



3. Détection entièrement automatique et silencieuse
- 🔍 Analyse de scène intelligente: Identifier automatiquement tous les objets saillants d'une image
- 🚀 Démarrage sans configuration:Fonctionne sans aucune saisie rapide


Échange et discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
