HyperAIHyperAI

Command Palette

Search for a command to run...

Genaue und Echtzeit 3D-Pedestrienerkennung mit einem effizienten aufmerksamkeitsbasierten Pfeiler-Netzwerk

Duy Tho Le Hengcan Shi Hamid Rezatofighi Jianfei Cai

Zusammenfassung

Die effiziente und genaue Erkennung von Personen aus 3D-Punktwolken-Daten ist für viele roboter- und autonomes-Fahrzeug-Anwendungen von großer Bedeutung. Diese grundlegende Wahrnehmungsaufgabe ist jedoch aufgrund von (i) erheblichen Verformungen der menschlichen Körperhaltung und Gestik im Laufe der Zeit sowie (ii) der Punktwolken-Dünnheit und -Knappheit für Fußgängerobjekte noch immer sehr herausfordernd. Aktuelle effiziente Ansätze zur 3D-Objekterkennung basieren auf Säulenmerkmalen (pillar features), um Objekte aus Punktwolken-Daten zu erkennen. Diese Säulenmerkmale tragen jedoch nicht ausreichend expressive Darstellungen, um alle oben genannten Herausforderungen bei der Personenerkennung zu bewältigen. Um dieses Manko zu beheben, führen wir zunächst ein stapelbares Modul namens Säulenbewusste Aufmerksamkeit (Pillar Aware Attention, PAA) ein, das die Extraktion von Säulenmerkmalen verbessert und gleichzeitig Rauschen in den Punktwolken unterdrückt. Durch die Integration von Multi-Punkt-Kanal-Pooling, punktweiser, kanalweiser und aufgabenbewusster Aufmerksamkeit in ein einfaches Modul werden die Darstellungsfähigkeiten gesteigert, während nur geringe zusätzliche Rechenressourcen erforderlich sind. Zudem präsentieren wir Mini-BiFPN, ein kleines aber effektives Merkmalsnetzwerk, das einen bidirektionalen Informationsfluss und eine mehrstufige Kreuzskalen-Merkmalsfusion schafft, um mehrschichtige Merkmale besser zu integrieren. Unser vorgeschlagenes Framework, PiFeNet genannt, wurde anhand dreier weit verbreiteter groß angelegter Datensätze zur 3D-Fußgängererkennung evaluiert: KITTI, JRDB und nuScenes. Dabei erreichte es den Stand der Technik (state-of-the-art, SOTA) in den KITTI Vogelperspektive (Bird-eye-view, BEV) und JRDB sowie sehr wettbewerbsfähige Leistungen in nuScenes. Unser Ansatz hat eine Inferenzgeschwindigkeit von 26 Bildern pro Sekunde (Bildfrequenz), was ihn zu einem Echtzeitdetektor macht. Der Code für unser PiFeNet ist unter https://github.com/ldtho/PiFeNet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp