HyperAIHyperAI
vor 17 Tagen

YOLOv4: Optimaler Geschwindigkeits- und Genauigkeits-Trade-off bei der Objekterkennung

Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao
YOLOv4: Optimaler Geschwindigkeits- und Genauigkeits-Trade-off bei der Objekterkennung
Abstract

Es gibt eine große Anzahl von Merkmalen, die angeblich die Genauigkeit von Faltungsneuronalen Netzen (Convolutional Neural Networks, CNN) verbessern. Für eine praktische Validierung von Kombinationen solcher Merkmale an großen Datensätzen sowie für eine theoretische Begründung der Ergebnisse ist weiterer Forschungsaufwand erforderlich. Einige Merkmale sind ausschließlich auf bestimmte Modelle oder spezifische Aufgaben oder nur auf datenbanken mit kleinem Umfang beschränkt; andere Merkmale wie Batch-Normalisierung und Residual-Verbindungen sind hingegen auf die Mehrheit der Modelle, Aufgaben und Datensätze anwendbar. Wir gehen davon aus, dass universell einsetzbare Merkmale Weighted-Residual-Connections (WRC), Cross-Stage-Partial-Connections (CSP), Cross mini-Batch-Normalization (CmBN), Self-adversarial-Training (SAT) und Mish-Aktivierung umfassen. In dieser Arbeit werden neue Merkmale wie WRC, CSP, CmBN, SAT, Mish-Aktivierung, Mosaic-Datenaugmentierung, CmBN (wiederholt), DropBlock-Regularisierung sowie CIoU-Verlust verwendet und einige davon kombiniert, um state-of-the-art-Ergebnisse zu erzielen: 43,5 % AP (65,7 % AP50) für den MS COCO-Datensatz bei einer Echtzeitgeschwindigkeit von etwa 65 FPS auf einer Tesla V100. Der Quellcode ist unter https://github.com/AlexeyAB/darknet verfügbar.