HyperAIHyperAI
vor 2 Monaten

Genaue und Echtzeit 3D-Pedestrienerkennung mit einem effizienten aufmerksamkeitsbasierten Pfeiler-Netzwerk

Le, Duy-Tho ; Shi, Hengcan ; Rezatofighi, Hamid ; Cai, Jianfei
Genaue und Echtzeit 3D-Pedestrienerkennung mit einem effizienten
aufmerksamkeitsbasierten Pfeiler-Netzwerk
Abstract

Die effiziente und genaue Erkennung von Personen aus 3D-Punktwolken-Daten ist für viele roboter- und autonomes-Fahrzeug-Anwendungen von großer Bedeutung. Diese grundlegende Wahrnehmungsaufgabe ist jedoch aufgrund von (i) erheblichen Verformungen der menschlichen Körperhaltung und Gestik im Laufe der Zeit sowie (ii) der Punktwolken-Dünnheit und -Knappheit für Fußgängerobjekte noch immer sehr herausfordernd. Aktuelle effiziente Ansätze zur 3D-Objekterkennung basieren auf Säulenmerkmalen (pillar features), um Objekte aus Punktwolken-Daten zu erkennen. Diese Säulenmerkmale tragen jedoch nicht ausreichend expressive Darstellungen, um alle oben genannten Herausforderungen bei der Personenerkennung zu bewältigen. Um dieses Manko zu beheben, führen wir zunächst ein stapelbares Modul namens Säulenbewusste Aufmerksamkeit (Pillar Aware Attention, PAA) ein, das die Extraktion von Säulenmerkmalen verbessert und gleichzeitig Rauschen in den Punktwolken unterdrückt. Durch die Integration von Multi-Punkt-Kanal-Pooling, punktweiser, kanalweiser und aufgabenbewusster Aufmerksamkeit in ein einfaches Modul werden die Darstellungsfähigkeiten gesteigert, während nur geringe zusätzliche Rechenressourcen erforderlich sind. Zudem präsentieren wir Mini-BiFPN, ein kleines aber effektives Merkmalsnetzwerk, das einen bidirektionalen Informationsfluss und eine mehrstufige Kreuzskalen-Merkmalsfusion schafft, um mehrschichtige Merkmale besser zu integrieren. Unser vorgeschlagenes Framework, PiFeNet genannt, wurde anhand dreier weit verbreiteter groß angelegter Datensätze zur 3D-Fußgängererkennung evaluiert: KITTI, JRDB und nuScenes. Dabei erreichte es den Stand der Technik (state-of-the-art, SOTA) in den KITTI Vogelperspektive (Bird-eye-view, BEV) und JRDB sowie sehr wettbewerbsfähige Leistungen in nuScenes. Unser Ansatz hat eine Inferenzgeschwindigkeit von 26 Bildern pro Sekunde (Bildfrequenz), was ihn zu einem Echtzeitdetektor macht. Der Code für unser PiFeNet ist unter https://github.com/ldtho/PiFeNet verfügbar.

Genaue und Echtzeit 3D-Pedestrienerkennung mit einem effizienten aufmerksamkeitsbasierten Pfeiler-Netzwerk | Neueste Forschungsarbeiten | HyperAI