YOLOv11: Ein Überblick über die wesentlichen architektonischen Verbesserungen

Diese Studie präsentiert eine architektonische Analyse von YOLOv11, der neuesten Version in der Reihe der Objekterkennungsmodelle YOLO (You Only Look Once). Wir untersuchen die architektonischen Neuerungen des Modells, darunter die Einführung des C3k2-Blocks (Cross Stage Partial mit Kernelsize 2), des SPPF-Komponenten (Spatial Pyramid Pooling - Fast) und der C2PSA-Komponente (Convolutional Block mit Parallel Spatial Attention), welche dazu beitragen, die Leistung des Modells auf verschiedene Weise zu verbessern, wie zum Beispiel durch eine optimierte Merkmalsextraktion. Das Papier beleuchtet die erweiterten Fähigkeiten von YOLOv11 in verschiedenen Computer Vision-Aufgaben, einschließlich Objekterkennung, Instanzsegmentierung, Pose-Schätzung und orientierter Objekterkennung (OBB). Wir bewerten die Leistungsverbesserungen des Modells hinsichtlich des mittleren Durchschnittspräzisionswertes (mean Average Precision, mAP) und der rechnerischen Effizienz im Vergleich zu seinen Vorgängern, wobei wir den Kompromiss zwischen Parameterzahl und Genauigkeit im Fokus haben. Zudem diskutiert die Studie die Vielseitigkeit von YOLOv11 bei unterschiedlichen Modellgrößen, von Nano bis Extra-Large, um den vielfältigen Anwendungsanforderungen von Edge-Geräten bis hin zu Hochleistungsrechenumgebungen gerecht zu werden. Unsere Forschung liefert Einblicke in die Position von YOLOv11 innerhalb des breiteren Spektrums der Objekterkennung und dessen potenziellen Einfluss auf Echtzeit-Computer-Vision-Anwendungen.