YOLOv10: Echtzeit-End-to-End-Objekterkennung

In den letzten Jahren haben sich YOLOs (You Only Look Once) als vorherrschendes Paradigma im Bereich der Echtzeit-Objekterkennung etabliert, dank ihrer effektiven Balance zwischen Rechenaufwand und Erkennungsleistung. Forscher haben sich mit architektonischen Design, Optimierungskriterien, Datenverstärkungsstrategien und anderen Aspekten von YOLOs befasst und dabei erhebliche Fortschritte erzielt. Dennoch behindert die Abhängigkeit von der nicht-maximalen Unterdrückung (Non-Maximum Suppression, NMS) für die Nachbearbeitung die End-to-End-Bereitstellung von YOLOs und beeinträchtigt negativ die Inferenzlatenz. Zudem mangelt es bei der Gestaltung verschiedener Komponenten in YOLOs an einer umfassenden und gründlichen Prüfung, was zu bemerkenswerten rechnerischen Redundanzen führt und die Leistungsfähigkeit des Modells einschränkt. Dies resultiert in suboptimaler Effizienz sowie erheblichem Verbesserungspotential. In dieser Arbeit streben wir an, die Grenze zwischen Leistung und Effizienz von YOLOs sowohl im Bereich der Nachbearbeitung als auch der Modellarchitektur weiter zu verschoben. Dazu präsentieren wir zunächst konsistente duale Zuordnungen für ein NMS-freies Training von YOLOs, was gleichzeitig wettbewerbsfähige Leistung und geringe Inferenzlatenz ermöglicht. Darüber hinaus führen wir eine ganzheitliche Strategie zur effizienz- und genauigkeitsgetriebenen Modellgestaltung für YOLOs ein. Wir optimieren umfassend verschiedene Komponenten von YOLOs unter Berücksichtigung von Effizienz und Genauigkeit, was den rechnerischen Overhead erheblich reduziert und die Leistungsfähigkeit steigert. Das Ergebnis unserer Bemühungen ist eine neue Generation der YOLO-Reihe für Echtzeit-End-to-End-Objekterkennung, genannt YOLOv10. Umfangreiche Experimente zeigen, dass YOLOv10 über verschiedene Modellgrößen hinweg den aktuellen Stand der Technik in Bezug auf Leistung und Effizienz erreicht. Zum Beispiel ist unser YOLOv10-S 1,8-mal schneller als RT-DETR-R18 bei vergleichbarem AP auf COCO und verfügt gleichzeitig über 2,8-mal weniger Parameter und FLOPs (Floating Point Operations). Im Vergleich zu YOLOv9-C hat YOLOv10-B bei gleicher Leistung 46 % weniger Latenz und 25 % weniger Parameter.