HyperAIHyperAI
vor 3 Monaten

DPNet: Dual-Path-Netzwerk für Echtzeit-Objektdetektion mit leichtgewichtigem Attention

Quan Zhou, Huimin Shi, Weikang Xiang, Bin Kang, Xiaofu Wu, Longin Jan Latecki
DPNet: Dual-Path-Netzwerk für Echtzeit-Objektdetektion mit leichtgewichtigem Attention
Abstract

Die jüngsten Fortschritte bei der Kompression hochgenauer Faltungsneuroner Netze (CNNs) haben erhebliche Fortschritte für die Echtzeit-Objekterkennung ermöglicht. Um die Erkennungsgeschwindigkeit zu beschleunigen, verwenden leichte Detektoren in der Regel wenige Faltungs-Schichten mit einem einheitlichen Backbone-Architekturtyp. Die einpfadige Architektur beinhaltet jedoch kontinuierliche Pooling- und Downsampling-Operationen, die stets zu groben und ungenauen Merkmalskarten führen, was die Objektlokalisierung beeinträchtigt. Andererseits sind neuere leichte Netzwerke aufgrund begrenzter Netzwerk-Kapazität oft schwach in der Darstellung großer visueller Datensätze. Um diese Probleme anzugehen, präsentiert dieser Artikel ein zweipfadiges Netzwerk namens DPNet mit einem leichten Aufmerksamkeitsansatz für die Echtzeit-Objekterkennung. Die zweipfadige Architektur ermöglicht es uns, hochwertige semantische Merkmale und feine objektspezifische Details parallel zu extrahieren. Obwohl DPNet bezüglich seiner Struktur annähernd doppelt so groß ist wie ein einpfadiger Detektor, steigen die Berechnungskosten und die Modellgröße nicht signifikant an. Zur Verbesserung der Darstellungskapazität wurde ein leichter Selbstkorrelationsmodul (LSCM) entworfen, der globale Interaktionen erfassen kann, wobei nur geringe zusätzliche Rechenkosten und Netzwerkparameter erforderlich sind. Im sogenannten „Neck“-Bereich wird das LSCM erweitert zu einem leichtgewichtigen Kreuzkorrelationsmodul (LCCM), das gegenseitige Abhängigkeiten zwischen benachbarten Skalenmerkmalen erfasst. Ausführliche Experimente wurden auf den Datensätzen MS COCO und Pascal VOC 2007 durchgeführt. Die experimentellen Ergebnisse zeigen, dass DPNet eine state-of-the-art-Performance hinsichtlich des Kompromisses zwischen Erkennungsgenauigkeit und Implementierungseffizienz erreicht. Speziell erzielt DPNet eine AP von 30,5 % auf dem MS COCO test-dev-Datensatz und eine mAP von 81,5 % auf dem Pascal VOC 2007-Testset. Zusätzlich weist das Modell eine Größe von fast 2,5 Mio. Parametern, 1,04 GFLOPs Rechenkomplexität und eine Geschwindigkeit von 164 FPS bzw. 196 FPS bei Eingabebildern der Größe 320 × 320 für die beiden Datensätze auf.

DPNet: Dual-Path-Netzwerk für Echtzeit-Objektdetektion mit leichtgewichtigem Attention | Forschungsarbeiten | HyperAI