YOLOv2 verbessert Genauigkeit und Geschwindigkeit durch innovative Architekturänderungen.
YOLOv2 und YOLO9000 – ein Meilenstein in der Echtzeit-Objektdetektion. Die 2016 veröffentlichte Arbeit von Joseph Redmon und Ali Farhadi, titelnd „YOLO9000: Better, Faster, Stronger“, stellte eine signifikante Weiterentwicklung des ursprünglichen YOLOv1-Modells dar. Obwohl der Name des Papiers auf YOLO9000 verweist, handelt es sich bei der eigentlichen Architektur um YOLOv2, das als Grundlage für die erweiterte Version diente. YOLOv2 adressierte zwei zentrale Schwächen von YOLOv1: hohe Lokalisierungsfehler und geringe Recall-Rate. Um dies zu beheben, wurden mehrere Schlüsselverbesserungen eingeführt. Zunächst wurde Batch Normalization implementiert, was die Stabilität des Trainings erhöhte und eine Reduktion der Notwendigkeit für Dropout ermöglichte – ein Schritt, der die mAP von 63,4 % auf 65,8 % steigerte. Anschließend wurde ein verbessertes Feintuning-Verfahren eingeführt: Nach der Vortrainierung auf ImageNet mit 224×224-Bildern wurde das Modell zunächst auf 448×448-Bilder angepasst, bevor es auf PASCAL VOC finegetuned wurde. Dies führte zu einem weiteren mAP-Anstieg um 3,7 Prozentpunkte auf 69,5 %. Ein entscheidender Fortschritt war die Einführung von Anchor Boxes, die als Vorlagen für Bounding Boxes dienen und die Vorhersage von Offset-Werten statt absoluter Koordinaten ermöglichen. Dies verbesserte die Erkennungsgenauigkeit und erhöhte die Recall-Rate um 7 Prozentpunkte auf 88 %. Um optimale Anchor Box-Größen zu finden, wurde K-Means-Clustering mit einer IOU-basierten Distanzmetrik verwendet, was zu einer besseren Anpassung an die tatsächliche Objektverteilung führte. Zusätzlich wurden die Koordinatenprädiktionen durch eine Sigmoid-Funktion auf das Grid-Cell-Gebiet beschränkt und die Breite/Höhe mit einer Exponentialfunktion verarbeitet, um negative Werte zu vermeiden. Dies erhöhte die mAP auf 74,4 %. Der sogenannte Passthrough-Layer bewahrte feinkörnige Merkmale aus früheren Schichten, indem er die Feature-Maps von 26×26 auf 13×13 umkodiert und kanalweise mit höheren Abstraktionen kombinierte – eine Strategie, die besonders bei kleinen Objekten hilfreich ist. Zudem wurde die Architektur auf eine vollständig konvolutionale Struktur umgestellt (Darknet-19), die mit nur 5,58 Milliarden Operationen weniger als YOLOv1 auskommt und somit schneller läuft. Die Einführung von Multi-Scale-Training, bei dem die Eingabebildgröße zufällig zwischen 320×320 und 608×608 variiert, verbesserte die Skalenrobustheit und erhöhte die mAP auf 78,6 %. Die Kombination aus ImageNet und COCO mittels einer hierarchischen Wortstruktur (WordTree) ermöglichte schließlich YOLO9000, über 9.000 Objektklassen zu erkennen – ein Meilenstein für generalisierte Objektdetektion. Industrieinsider loben YOLOv2 als Meilenstein in der Balance zwischen Geschwindigkeit und Genauigkeit. Die Einführung von Anchor Boxes und Batch Normalization wurde als entscheidend für die weitere Entwicklung von Detektionsarchitekturen wie YOLOv3, YOLOv4 und YOLOv5 angesehen. Darknet-19 wurde als effiziente, leichtgewichtige Backbone-Architektur geschätzt, die auch in späteren Versionen weiterentwickelt wurde. YOLO9000 gilt als kreative Lösung für das Problem des fehlenden Trainingsdaten für große Klassenmengen, obwohl die Genauigkeit auf unüberwachten Daten geringer ist. Die Implementierung von YOLOv2 in PyTorch, wie in der Erklärung dargestellt, zeigt die Modularität und Nachvollziehbarkeit der Architektur, was sie zu einem beliebten Lern- und Forschungsinstrument macht. Unternehmen wie NVIDIA und startups in der Autonomie- und Robotikbranche nutzen YOLO-basierte Modelle bis heute für Echtzeit-Anwendungen, was die nachhaltige Wirkung von YOLOv2 unterstreicht.
