HyperAIHyperAI
vor 2 Monaten

Lite Pose: Effizientes Architekturdesign für die 2D-Pose-Schätzung von Menschen

Wang, Yihan ; Li, Muyang ; Cai, Han ; Chen, Wei-Ming ; Han, Song
Lite Pose: Effizientes Architekturdesign für die 2D-Pose-Schätzung von Menschen
Abstract

Die Pose-Schätzung spielt eine entscheidende Rolle in visuellen Anwendungen, die sich auf Menschen konzentrieren. Allerdings ist es schwierig, moderne HRNet-basierte Pose-Schätzungsmodelle auf ressourcenbeschränkten Edge-Geräten zu implementieren, aufgrund der hohen Rechenkosten (mehr als 150 GMACs pro Frame). In dieser Arbeit untersuchen wir effiziente Architekturdesigns für die Echtzeit-Pose-Schätzung mehrerer Personen am Edge. Wir zeigen durch unsere schrittweise Reduktionsexperimente, dass die hochauflösenden Zweige des HRNet für Modelle im Bereich geringer Rechenleistung überflüssig sind. Die Entfernung dieser Zweige verbessert sowohl die Effizienz als auch die Leistung. Inspiriert durch dieses Ergebnis, haben wir LitePose entwickelt, eine effiziente Einzweig-Architektur für Pose-Schätzungen, und zwei einfache Ansätze vorgestellt, um die Kapazität von LitePose zu erhöhen: den Fusion-Deconv-Head und große Faltungskerne (Large Kernel Convs). Der Fusion-Deconv-Head beseitigt die Redundanz in den hochauflösenden Zweigen und ermöglicht skalierungsbewusste Merkmalsfusion mit geringem Overhead. Große Faltungskerne verbessern das Modellkapazität und den Empfangsbereich erheblich, während sie gleichzeitig niedrige Rechenkosten beibehalten. Mit nur einem 25-prozentigen Anstieg der Berechnungskosten erreichen 7x7-Kerne auf dem CrowdPose-Datensatz +14.0 mAP besser als 3x3-Kerne. Auf mobilen Plattformen reduziert LitePose die Latenz bis zu 5.0-fach ohne Leistungsverlust im Vergleich zu bisherigen leistungsstärksten effizienten Pose-Schätzungsmodellen, was den Stand der Technik bei der Echtzeit-Pose-Schätzung mehrerer Personen am Edge vorantreibt. Unser Code und unsere vorab trainierten Modelle sind unter https://github.com/mit-han-lab/litepose veröffentlicht.