HyperAI

YOLOE : Tout Voir En Temps Réel

1. Introduction au tutoriel

YOLOE est un nouveau modèle visuel en temps réel proposé par une équipe de recherche de l'Université Tsinghua en 2025, qui vise à atteindre l'objectif de « tout voir en temps réel ». Il hérite des caractéristiques en temps réel et efficaces de la série de modèles YOLO et, sur cette base, intègre en profondeur les capacités d'apprentissage zéro coup et d'invite multimodale, et peut prendre en charge la détection et la segmentation de cibles dans plusieurs scénarios tels que le texte, la vision et l'invite silencieuse. Les résultats pertinents de l'article sontYOLOE : voir tout en temps réel".

Fonctionnalités principales

  1. Tout type de texte Exemple d'invite de texte
  2. Invites multimodales:
    • Repères visuels (boîtes/points/formes dessinées à la main/images de référence) Exemples d'indices visuels
  3. Détection silencieuse entièrement automatique – Identifier automatiquement les objets de la scène Exemple silencieux

Environnement de démonstration : séries YOLOv8e/YOLOv11e + RTX4090

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Démonstration de la fonction YOLOE

1. Détection d'invite de texte

  • Tout type de texte
  • Mots d'invite personnalisés: Permet à l'utilisateur de saisir du texte arbitraire (les résultats de la reconnaissance peuvent varier en fonction de la complexité sémantique)
Exemple d'invite de texte 1
Exemple d'invite de texte 2

2. Indices visuels multimodaux

  • 🟦 Détection de sélection de boîte (boîtes b)
    bboxes : Par exemple, si vous téléchargez une image contenant de nombreuses personnes et que vous souhaitez détecter des personnes dans l'image, vous pouvez utiliser des bboxes pour encadrer une personne. Lors de l'inférence, le modèle identifiera toutes les personnes de l'image en fonction du contenu des bbox.
    Plusieurs bboxes peuvent être dessinées pour obtenir des repères visuels plus précis.
  • ✏️ Zone de clic/dessin (masques)
    Masques : Par exemple, si vous téléchargez une image contenant de nombreuses personnes et que vous souhaitez détecter des personnes dans l'image, vous pouvez utiliser des masques pour couvrir une personne. Lors de l’inférence, le modèle reconnaîtra toutes les personnes de l’image en fonction du contenu des masques.
    Vous pouvez dessiner plusieurs masques pour obtenir des repères visuels plus précis.
  • 🖼️ Comparaison d'images de référence (Intra/Cross)
    Intra : exploitez les bbox ou les masques sur l'image actuelle et effectuez une inférence sur l'image actuelle.
    Croix : Exploitez les bbox ou les masques sur l'image actuelle et déduisez-les sur d'autres images.

Concepts de base

modèleDescription fonctionnelleScénario d'application
Intra-imageModélisation des relations entre objets au sein d'un même graphiquePositionnement précis de la cible locale
Image croiséeCorrespondance des caractéristiques entre imagesRécupération d'objets similaires
Exemple de détection de sélection de boîte
Exemple d'invite dessinée à la main
Exemple de comparaison d'images de référence

3. Détection entièrement automatique et silencieuse

  • 🔍  Analyse de scène intelligente: Identifier automatiquement tous les objets saillants d'une image
  • 🚀  Démarrage sans configuration:Fonctionne sans aucune saisie rapide
Détection entièrement automatique 1
Détection entièrement automatique 2

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓