YOLOE: Alles in Echtzeit Sehen

1. Einführung in das Tutorial
YOLOE ist ein neues visuelles Echtzeitmodell, das von einem Forschungsteam der Tsinghua-Universität im Jahr 2025 vorgeschlagen wurde und das Ziel erreichen soll, „alles in Echtzeit zu sehen“. Es übernimmt die Echtzeit- und Effizienzeigenschaften der YOLO-Modellreihe und integriert auf dieser Grundlage Zero-Shot-Learning und multimodale Eingabeaufforderungsfunktionen umfassend und kann die Zielerkennung und -segmentierung in mehreren Szenarien wie Text, Sicht und stiller Eingabeaufforderung unterstützen. Die relevanten Papierergebnisse sindYOLOE: Alles in Echtzeit sehen".
Kernfunktionen
- Beliebiger Texttyp
- Multimodale Eingabeaufforderungen:
- Visuelle Hinweise (Kästchen/Punkte/handgezeichnete Formen/Referenzbilder)
- Visuelle Hinweise (Kästchen/Punkte/handgezeichnete Formen/Referenzbilder)
- Vollautomatische Lautloserkennung – Szenenobjekte automatisch identifizieren
Demoumgebung: YOLOv8e/YOLOv11e-Serie + RTX4090
2. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie etwa 1–2 Minuten und aktualisieren Sie die Seite.

2. YOLOE-Funktionsdemonstration
1. Texteingabeaufforderungserkennung
- Beliebiger Texttyp
- Benutzerdefinierte Eingabeaufforderungswörter: Ermöglicht dem Benutzer die Eingabe von beliebigem Text (die Erkennungsergebnisse können je nach semantischer Komplexität variieren)


2. Multimodale visuelle Hinweise
- 🟦 Erkennung der Boxauswahl (bboxen)
bboxes: Wenn Sie beispielsweise ein Bild hochladen, auf dem viele Personen zu sehen sind, und die Personen auf dem Bild erkennen möchten, können Sie bboxes verwenden, um eine Person einzurahmen. Während der Inferenz identifiziert das Modell alle Personen im Bild basierend auf dem Inhalt der Bboxen.
Um genauere visuelle Hinweise zu erhalten, können mehrere Bboxen gezeichnet werden. - ✏️ Klicken/Zeichnen-Bereich (Masken)
Masken: Wenn Sie beispielsweise ein Bild hochladen, auf dem viele Personen zu sehen sind, und die Personen auf dem Bild erkennen möchten, können Sie Masken verwenden, um eine Person abzudecken. Während der Inferenz erkennt das Modell alle Personen im Bild anhand des Inhalts der Masken.
Sie können mehrere Masken zeichnen, um genauere visuelle Hinweise zu erhalten. - 🖼️ Referenzbildvergleich (Intra/Cross)
Intra: Bedienen Sie Bboxen oder Masken auf dem aktuellen Bild und führen Sie Inferenzen auf dem aktuellen Bild durch.
Cross: Behandeln Sie Bboxen oder Masken auf dem aktuellen Bild und ziehen Sie Rückschlüsse auf andere Bilder.
Kernkonzepte
Modell | Funktionsbeschreibung | Anwendungsszenario |
---|---|---|
Intra-Bild | Modellieren von Objektbeziehungen innerhalb eines einzelnen Diagramms | Lokale, zielgenaue Positionierung |
Kreuzbild | Bildübergreifender Merkmalsabgleich | Ähnliches Objektabrufen |



3. Vollautomatische Erkennung ohne Rückfrage
- 🔍 Intelligente Szenenanalyse: Automatisches Identifizieren aller auffälligen Objekte in einem Bild
- 🚀 Start ohne Konfiguration: Funktioniert ohne Eingabeaufforderung


Austausch und Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓
