HyperAIHyperAI

Command Palette

Search for a command to run...

YOLOE: Alles in Echtzeit Sehen

Date

vor 10 Monaten

Size

1.94 GB

License

Apache 2.0

Paper URL

2503.07465

1. Einführung in das Tutorial

YOLOE ist ein neuartiges Echtzeit-Bildverarbeitungsmodell, das 2025 von einem Forschungsteam der Tsinghua-Universität entwickelt wurde und das Ziel verfolgt, „alles in Echtzeit zu sehen“. Es übernimmt die Echtzeit- und Effizienzeigenschaften der YOLO-Modellreihe und integriert Zero-Shot-Learning sowie multimodale Prompting-Funktionen. Dadurch ermöglicht es Objekterkennung und -segmentierung in verschiedenen Szenarien, darunter Text-, Bild- und unstrukturierte Szenarien. Zugehörige Forschungsarbeiten sind verfügbar. YOLOE: Alles in Echtzeit sehen .

YOLO (You Only Look Once) ist seit seiner Einführung im Jahr 2015 führend in der Objekterkennung und Bildsegmentierung.Nachfolgend finden Sie die Entwicklung der YOLO-Reihe und der zugehörigen Tutorials:

Kernfunktionen

  1. Beliebiger Texttyp

2. Multimodale Eingabeaufforderungen:

  • Visuelle Hinweise (Kästchen/Punkte/handgezeichnete Formen/Referenzbilder) 
  1. Vollautomatische Lautloserkennung – Szenenobjekte automatisch identifizieren

Demoumgebung: YOLOv8e/YOLOv11e-Serie + RTX4090

2. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie etwa 1–2 Minuten und aktualisieren Sie die Seite.

2. YOLOE-Funktionsdemonstration

1. Texteingabeaufforderungserkennung

  • Beliebiger Texttyp
  • Benutzerdefinierte Eingabeaufforderungswörter: Ermöglicht dem Benutzer die Eingabe von beliebigem Text (die Erkennungsergebnisse können je nach semantischer Komplexität variieren)

2. Multimodale visuelle Hinweise

  • 🟦  Erkennung der Boxauswahl (bboxen)
    bboxes: Wenn Sie beispielsweise ein Bild hochladen, auf dem viele Personen zu sehen sind, und die Personen auf dem Bild erkennen möchten, können Sie bboxes verwenden, um eine Person einzurahmen. Während der Inferenz identifiziert das Modell alle Personen im Bild basierend auf dem Inhalt der Bboxen.
    Um genauere visuelle Hinweise zu erhalten, können mehrere Bboxen gezeichnet werden.
  • ✏️  Klicken/Zeichnen-Bereich (Masken)
    Masken: Wenn Sie beispielsweise ein Bild hochladen, auf dem viele Personen zu sehen sind, und die Personen auf dem Bild erkennen möchten, können Sie Masken verwenden, um eine Person abzudecken. Während der Inferenz erkennt das Modell alle Personen im Bild anhand des Inhalts der Masken.
    Sie können mehrere Masken zeichnen, um genauere visuelle Hinweise zu erhalten.
  • 🖼️  Referenzbildvergleich (Intra/Cross)
    Intra: Bedienen Sie Bboxen oder Masken auf dem aktuellen Bild und führen Sie Inferenzen auf dem aktuellen Bild durch.
    Cross: Behandeln Sie Bboxen oder Masken auf dem aktuellen Bild und ziehen Sie Rückschlüsse auf andere Bilder.

Kernkonzepte

ModellFunktionsbeschreibungAnwendungsszenario
Intra-BildModellieren von Objektbeziehungen innerhalb eines einzelnen DiagrammsLokale, zielgenaue Positionierung
KreuzbildBildübergreifender MerkmalsabgleichÄhnliches Objektabrufen

3. Vollautomatische Erkennung ohne Rückfrage

  • 🔍  Intelligente Szenenanalyse: Automatisches Identifizieren aller auffälligen Objekte in einem Bild
  • 🚀  Start ohne Konfiguration: Funktioniert ohne Eingabeaufforderung

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp