HyperAI

YOLOv10 Echtzeit-End-to-End-Objekterkennung

YOLOv10 ist die neueste Generation eines Echtzeit-End-to-End-Objekterkennungssystems, das von Forschern der Tsinghua-Universität entwickelt wurde. Es basiert auf dem Python-Paket Ultralytics und zielt darauf ab, die Mängel früherer YOLO-Versionen in der Nachbearbeitung und Modellarchitektur zu beheben. Durch die Beseitigung der Nicht-Maximum-Unterdrückung (NMS) und die Optimierung verschiedener Modellkomponenten erreicht YOLOv10 eine Leistung auf dem neuesten Stand der Technik und reduziert gleichzeitig den Rechenaufwand erheblich. Das Forschungsteam veröffentlichte ein Papier „YOLOv10: End-to-End-Objekterkennung in Echtzeit“Der Studienablauf wird ausführlich erläutert.

Hintergrund

In den letzten Jahren hat sich YOLO aufgrund seines effektiven Gleichgewichts zwischen Rechenaufwand und Erkennungsleistung zum dominierenden Paradigma im Bereich der Echtzeit-Objekterkennung entwickelt. Forscher haben das Architekturdesign, die Optimierungsziele, die Datenverbesserungsstrategien usw. von YOLO untersucht und erhebliche Fortschritte erzielt. Die Abhängigkeit von der Nicht-Maximum-Unterdrückung (NMS) für die Nachbearbeitung behindert jedoch die End-to-End-Bereitstellung von YOLO und wirkt sich negativ auf die Inferenzlatenz aus. Darüber hinaus fehlt dem Design jeder Komponente in YOLO eine umfassende und gründliche Überprüfung, was zu offensichtlicher Rechenredundanz führt und die Fähigkeiten des Modells einschränkt. Dies führt zu einer suboptimalen Effizienz, bietet jedoch erhebliches Potenzial zur Leistungsverbesserung.

YOLOv10-Forschungseinführung

In dieser Arbeit zielt das Forschungsteam darauf ab, die Grenzen der Leistungseffizienz von YOLO aus zwei Aspekten herauszuschieben: Nachbearbeitung und Modellarchitektur. Zu diesem Zweck schlug das Forschungsteam zunächst eine konsistente duale Zuweisung für das YOLO NMS-freie Training vor, die sowohl eine wettbewerbsfähige Leistung als auch eine geringe Inferenzlatenz mit sich bringt. Darüber hinaus führte das Forschungsteam eine umfassende, auf Effizienz und Genauigkeit ausgerichtete Modelldesignstrategie für YOLO ein. Das Forschungsteam hat jede Komponente von YOLO umfassend im Hinblick auf Effizienz und Genauigkeit optimiert, wodurch der Rechenaufwand erheblich reduziert und die Leistung verbessert wurde. Das Ergebnis der Bemühungen des Forschungsteams ist die nächste Generation der YOLO-Familie für die Echtzeit-End-to-End-Objekterkennung, genannt YOLOv10. Umfangreiche Experimente zeigen, dass YOLOv10 bei verschiedenen Modellgrößen eine hochmoderne Leistung und Effizienz erreicht. Beispielsweise ist YOLOv10-S des Forschungsteams 1,8-mal schneller als RT-DETR-R18 bei ähnlichem AP auf COCO. Im Vergleich zu YOLOv9-C reduziert YOLOv10-B die Latenz um 46% und die Parameter um 25% bei gleicher Leistung. 

Die Architektur von YOLOv10 umfasst die folgenden Schlüsselkomponenten:

  1. Backbone-Netzwerk: Verantwortlich für die Merkmalsextraktion, verwendet eine erweiterte Version von CSPNet (Cross Stage Partial Network), um den Gradientenfluss zu verbessern und die Rechenredundanz zu reduzieren.
  2. Nacken: Entwickelt, um Features unterschiedlicher Maßstäbe zu aggregieren und eine effektive Feature-Fusion mehrerer Maßstäbe durch die PAN-Schicht (Path Aggregation Network) zu erreichen.
  3. Eins-zu-viele: Generieren Sie während des Trainings mehrere Vorhersagen für jedes Objekt, stellen Sie umfassende Überwachungssignale bereit und verbessern Sie die Lerngenauigkeit.
  4. Einzelunterricht: Generiert während der Inferenz ohne NMS eine einzelne beste Vorhersage für jedes Objekt, wodurch die Latenz reduziert und die Effizienz verbessert wird.

YOLOv10 verfügt über mehrere Modellgrößen, um unterschiedlichen Anwendungsanforderungen gerecht zu werden:

  • YOLOv10-N: Nano-Version, geeignet für Umgebungen mit extrem begrenzten Ressourcen.
  • YOLOv10-S: Kleine Version, die Geschwindigkeit und Genauigkeit ausbalanciert.
  • YOLOv10-M: Mittlere Version, für den allgemeinen Gebrauch geeignet.
  • YOLOv10-B: Ausgewogene Version mit größerer Breite für bessere Präzision.
  • YOLOv10-L: Große Version, die die Genauigkeit auf Kosten erhöhter Rechenressourcen verbessert.
  • YOLOv10-X: Extra große Version für maximale Präzision und Leistung.

YOLOv10 wurde ausführlich anhand von Standard-Benchmarks wie COCO getestet und zeigte eine überlegene Leistung und Effizienz sowie erhebliche Verbesserungen sowohl bei der Latenz als auch bei der Genauigkeit im Vergleich zu früheren Versionen und anderen modernen Detektoren.

Verweise

【1】YOLOv10: End-to-End-Objekterkennung in Echtzeit

【2】https://docs.ultralytics.com/zh/models/yolov10/