HyperAIHyperAI

Command Palette

Search for a command to run...

Online-Tutorial | Objekterkennung Im Zeitalter Der „globalen Bewusstseinsbildung“: Die Tsinghua-Universität Und Andere Veröffentlichen YOLOv13 Und Erzielen Durchbrüche in Geschwindigkeit Und Genauigkeit

Featured Image

In Anwendungen, die eine Reaktionszeit im Millisekundenbereich erfordern, wie beispielsweise autonomes Fahren, industrielle Qualitätskontrolle und Sicherheitsüberwachung, stellt die Echtzeit-Objekterkennung nach wie vor eine enorme technologische Herausforderung dar. Dank ihrer ressourcenschonenden und effizienten Architektur hat sich die YOLO-Serie im letzten Jahrzehnt zur Standardlösung in diesem Bereich entwickelt. Vom ersten YOLO bis hin zu den aktuellen Versionen YOLOv11 und YOLOv12 wurde das Modell kontinuierlich nach neuen optimalen Ergebnissen hinsichtlich Geschwindigkeit und Genauigkeit streben.

Doch selbst nach mehreren EvolutionenDie zugrundeliegenden Mechanismen der YOLO-Serie stoßen weiterhin auf gemeinsame Schwachstellen:Entweder kann es nur lokale Aggregation innerhalb eines festen rezeptiven Feldes durchführen, wie die Faltung, oder es kann das rezeptive Feld erweitern, wie die Selbstaufmerksamkeit. Aufgrund des hohen Rechenaufwands muss es jedoch in der Praxis „regionalisiert“ werden, wodurch eine wirklich globale Perspektive verloren geht. Wichtiger noch:Selbstaufmerksamkeit modelliert im Wesentlichen immer noch die Beziehung zwischen Pixelpaaren und kann nur "binäre Korrelationen" ausdrücken, was es schwierig macht, komplexere Viele-zu-Viele-semantische Strukturen in der Szene zu erfassen.Diese Strukturen sind für Modelle von entscheidender Bedeutung, um überfüllte Szenen, feinkörnige Objekte oder hochkomplexe visuelle Beziehungen zu verstehen.

*Rezeptives Feld: Im visuellen System empfangen Fotorezeptoren (Stäbchen und Zapfen) auf der Netzhaut Lichtsignale, wandeln diese in neuronale Signale um und beeinflussen die Zellen des Corpus geniculatum laterale sowie die Ganglienzellen im visuellen Cortex. Die stimulierten Bereiche dieser Ganglienzellen werden als rezeptive Felder bezeichnet. Verschiedene Sinnesorgane weisen unterschiedliche Eigenschaften und Größen ihrer rezeptiven Felder auf.

Aus diesem Grund stößt die traditionelle YOLO-Architektur bei komplexen Szenarien oft an ihre Leistungsgrenzen: Entweder gelingt es ihr nicht, langfristige Abhängigkeiten vollständig zu verstehen, oder sie hat Schwierigkeiten, tiefgreifende semantische Beziehungen über verschiedene Skalen hinweg auszudrücken.

Als Antwort auf dieses langjährige ProblemEin gemeinsames Forschungsteam der Tsinghua-Universität, der Technischen Universität Taiyuan, der Xi'an Jiaotong-Universität und weiterer Universitäten hat ein neuartiges Objekterkennungsmodell – YOLOv13 – vorgeschlagen, das die „Korrelationsmodellierung“ von binär auf eine echte Struktur höherer Ordnung erweitert.Das Forschungsteam stellte eine Kernkomponente vor – HyperACE (Hypergraph-based Adaptive Correlation Enhancement). HyperACE behandelt Pixel in multiskaligen Feature-Maps als Eckpunkte und untersucht adaptiv Korrelationen höherer Ordnung zwischen Eckpunkten mithilfe lernbarer Hyperedge-Bausteine.Anschließend werden mithilfe eines Informationsübertragungsmoduls mit linearer Komplexität, das auf Korrelationen höherer Ordnung basiert, multiskalige Merkmale effektiv aggregiert, um die visuelle Wahrnehmung in komplexen Szenen zu ermöglichen. Darüber hinaus integriert HyperACE auch die Modellierung von Korrelationen niedriger Ordnung, um eine umfassendere visuelle Wahrnehmung zu erzielen.

Aufbauend auf HyperACE schlug YOLOv13 außerdem FullPAD (Full-Pipeline Aggregation-and-Distribution) vor:Das Modell führt zunächst eine Relevanzverbesserung auf globaler Ebene durch und verteilt die verbesserten Merkmale anschließend auf verschiedene Abschnitte der Wirbelsäule, des Halses und des Kopfes. Dadurch kann „Semantik höherer Ordnung“ den gesamten Erkennungsprozess durchlaufen, was den Gradientenfluss verbessert und die Gesamtleistung steigert. Darüber hinaus ersetzten die Autoren den herkömmlichen großen Faltungskernel durch ein leichteres, tiefenweise separierbares Faltungsmodul. Dies reduziert den Parameter- und Rechenaufwand bei gleichbleibender Genauigkeit.

Die Endergebnisse zeigen, dass von kleinen Modellen (N-Reihen) bis hin zu großen Modellen,YOLOv13 hat gegenüber MS COCO deutliche Verbesserungen erzielt und erreicht eine Detektionsleistung auf dem neuesten Stand der Technik mit weniger Parametern und FLOPs.Unter ihnen verbesserte sich die mAP bei YOLOv13-N um 3,01 TP3T gegenüber YOLOv11-N und um 1,51 TP3T gegenüber YOLOv12-N.

Das Tutorial „Ein-Klick-Bereitstellung von Yolov13“ ist aktuell im Bereich „Tutorials“ auf der HyperAI-Website verfügbar. Klicken Sie auf den unten stehenden Link, um das Tutorial zur Ein-Klick-Bereitstellung auszuprobieren ⬇️

Link zum Tutorial:

https://go.hyper.ai/EHfXY

Verwandte Artikel ansehen:

https://go.hyper.ai/Gzu7K

Demolauf

1. Nachdem Sie die Hyper.ai-Homepage aufgerufen haben, wählen Sie „One-Click Deployment von Yolov13“ oder gehen Sie zur Seite „Tutorials“ und wählen Sie „Run this tutorial online“.

2. Nachdem die Seite weitergeleitet wurde, klicken Sie oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

Hinweis: Sie können die Sprache oben rechts auf der Seite ändern. Derzeit sind Chinesisch und Englisch verfügbar. Dieses Tutorial zeigt die Schritte auf Englisch.

3. Wählen Sie die Images „NVIDIA GeForce RTX 5090“ und „PyTorch“ aus und wählen Sie je nach Bedarf „Pay As You Go“ oder „Tagesplan/Wochenplan/Monatsplan“. Klicken Sie anschließend auf „Auftragsausführung fortsetzen“.

4. Warten Sie auf die Ressourcenzuweisung. Der erste Klonvorgang dauert etwa 3 Minuten. Sobald der Status auf „Wird ausgeführt“ wechselt, klicken Sie auf den Pfeil neben „API-Adresse“, um zur Demoseite zu gelangen.

Effektdemonstration

Nachdem Sie die Demo-Startseite aufgerufen haben, laden Sie Ihr Bild/Video hoch und klicken Sie auf „Objekte erkennen“, um die Demo zu starten.

Parameterbeschreibung:

* Modelle: yolov13n.pt (Nano), yolov13s.pt (Klein), yolov13l.pt (Groß), yolov13x.pt (Extra Groß). Größere Modelle weisen im Allgemeinen eine höhere Genauigkeit (mAP) auf, benötigen aber auch mehr Parameter, einen höheren Rechenaufwand (FLOPs) und eine längere Inferenzzeit.

* Konfidenzschwelle: Konfidenzschwelle.

* IoU-Schwellenwert: Intersection over Union (IoU)-Schwellenwert, verwendet für NMS.

* Maximale Anzahl Erkennungen pro Bild: Die maximale Anzahl an Erkennungsboxen pro Bild.

Der Herausgeber verwendete das Modell "yolov13s.pt" als Beispiel für die Tests; die Ergebnisse sind unten aufgeführt.

Das Obige ist das diesmal von HyperAI empfohlene Tutorial. Jeder ist herzlich eingeladen, vorbeizukommen und es auszuprobieren!

Link zum Tutorial:

https://go.hyper.ai/EHfXY

Online-Tutorial | Objekterkennung Im Zeitalter Der „globalen Bewusstseinsbildung“: Die Tsinghua-Universität Und Andere Veröffentlichen YOLOv13 Und Erzielen Durchbrüche in Geschwindigkeit Und Genauigkeit | Neuigkeiten | HyperAI