DAMO-YOLO: Ein Bericht über den Entwurf von Echtzeit-Objekterkennung

In diesem Bericht stellen wir eine schnelle und präzise Objektdetektionsmethode vor, die als DAMO-YOLO bezeichnet wird und eine höhere Leistung als die aktuell besten YOLO-Serien erzielt. DAMO-YOLO basiert auf YOLO und integriert mehrere neuartige Technologien, darunter Neural Architecture Search (NAS), einen effizienten reparameterisierten Generalized-FPN (RepGFPN), einen leichtgewichtigen Kopf mit AlignedOTA-Label-Zuordnung sowie eine Verbesserung durch Distillation. Insbesondere nutzen wir MAE-NAS, eine Methode, die durch das Prinzip der maximalen Entropie geleitet wird, um den Detektions-Backbone unter den Nebenbedingungen niedriger Latenz und hoher Leistung zu suchen. Dies führt zu ResNet-/CSP-ähnlichen Strukturen mit Spatial Pyramid Pooling und Focus-Modulen. Bei der Gestaltung von Neck und Head folgen wir der Regel „großes Neck, kleiner Head“. Wir integrieren einen Generalized-FPN mit beschleunigter Queen-Fusion zur Erstellung des Detektor-Necks und verbessern CSPNet durch effiziente Layer-Aggregation-Netzwerke (ELAN) und Reparametrisierung. Anschließend untersuchen wir, wie die Größe des Detektor-Kopfes die Detektionsleistung beeinflusst, und stellen fest, dass ein schwerer Neck mit lediglich einer Task-Projektionsschicht bessere Ergebnisse liefert. Zudem wird AlignedOTA vorgestellt, um das Problem der Label-Zuordnungs-Misalignment zu lösen. Außerdem wird ein Distillationsschema eingeführt, um die Leistung auf ein höheres Niveau zu heben. Auf Basis dieser neuen Technologien entwickeln wir eine Reihe von Modellen unterschiedlicher Skalen, um den Anforderungen verschiedener Anwendungsszenarien gerecht zu werden. Für allgemeine industrielle Anforderungen schlagen wir die Modelle DAMO-YOLO-T/S/M/L vor, die auf T4-GPUs eine mAP von 43,6/47,7/50,2/51,9 auf COCO bei einer Latenz von 2,78/3,83/5,62/7,95 ms erreichen. Zusätzlich stellen wir für Edge-Geräte mit begrenzter Rechenleistung die leichtgewichtigen Modelle DAMO-YOLO-Ns/Nm/Nl vor. Diese erzielen auf X86-CPU eine mAP von 32,3/38,2/40,5 auf COCO bei einer Latenz von 4,08/5,05/6,69 ms. Die vorgeschlagenen allgemeinen und leichtgewichtigen Modelle übertreffen in ihren jeweiligen Anwendungsszenarien andere Modelle der YOLO-Serie.