vor 17 Tagen

PP-PicoDet: Ein Verbesserter Echtzeit-Objekterkennungsalgorithmus für mobile Geräte

Guanghua Yu, Qinyao Chang, Wenyu Lv, Chang Xu, Cheng Cui, Wei Ji, Qingqing Dang, Kaipeng Deng, Guanzhong Wang, Yuning Du, Baohua Lai, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma

Details der Forschungsarbeit anzeigen

PP-PicoDet: Ein Verbesserter Echtzeit-Objekterkennungsalgorithmus für mobile Geräte

Abstract

Die Verbesserung des Kompromisses zwischen Genauigkeit und Effizienz stellt eine herausfordernde Aufgabe im Bereich der Objektdetektion dar. In dieser Arbeit widmen wir uns der Untersuchung zentraler Optimierungen und Architekturwahl neuronaler Netzwerke für die Objektdetektion, um sowohl Genauigkeit als auch Effizienz zu steigern. Wir untersuchen die Anwendbarkeit der anchor-free-Strategie auf leichte Objektdetektionsmodelle. Wir verbessern die Backbone-Struktur und entwerfen eine leichte Neck-Architektur, wodurch die Fähigkeit des Netzwerks zur Merkmalsextraktion signifikant gesteigert wird. Zudem optimieren wir die Label-Zuweisungsstrategie und die Verlustfunktion, um den Trainingsprozess stabiler und effizienter zu gestalten. Durch diese Optimierungen entwickeln wir eine neue Familie von Echtzeit-Objektdetektoren namens PP-PicoDet, die herausragende Leistung bei der Objektdetektion für mobile Geräte erzielt. Im Vergleich zu anderen gängigen Modellen erreichen unsere Modelle ein besseres Verhältnis zwischen Genauigkeit und Latenz. PicoDet-S mit lediglich 0,99 M Parametern erreicht eine mAP von 30,6 % – eine absolute Verbesserung um 4,8 % gegenüber YOLOX-Nano, bei gleichzeitiger Reduktion der Inferenz-Latenz auf mobilen CPU-Architekturen um 55 %. Im Vergleich zu NanoDet zeigt PicoDet-S eine absolute Verbesserung der mAP um 7,1 %. Auf mobilen ARM-CPU erreicht es eine Geschwindigkeit von 123 FPS (150 FPS mit Paddle Lite) bei einer Eingabegröße von 320. PicoDet-L mit nur 3,3 M Parametern erreicht eine mAP von 40,9 % – eine absolute Verbesserung um 3,7 % und eine um 44 % schnellere Ausführung im Vergleich zu YOLOv5s. Wie in Abbildung 1 dargestellt, übertrifft unser Ansatz deutlich die aktuellen State-of-the-Art-Ergebnisse bei leichten Objektdetektionsmodellen. Der Quellcode und vortrainierte Modelle sind unter https://github.com/PaddlePaddle/PaddleDetection verfügbar.