HyperAIHyperAI
il y a 2 mois

Détection précise et en temps réel de piétons 3D à l'aide d'un réseau de piliers efficace et attentif

Le, Duy-Tho ; Shi, Hengcan ; Rezatofighi, Hamid ; Cai, Jianfei
Détection précise et en temps réel de piétons 3D à l'aide d'un réseau de piliers efficace et attentif
Résumé

La détection efficace et précise des personnes à partir de données de nuages de points 3D est d'une grande importance dans de nombreuses applications robotiques et de conduite autonome. Cette tâche fondamentale de perception reste très difficile en raison (i) des déformations significatives de la posture et des gestes du corps humain au fil du temps et (ii) de la rareté et de la faible densité des nuages de points pour les objets de classe piéton. Les approches récentes pour la détection d'objets 3D s'appuient sur des caractéristiques en piliers pour détecter les objets à partir des données de nuages de points. Cependant, ces caractéristiques en piliers ne disposent pas d'une représentation suffisamment expressive pour faire face à tous les défis mentionnés précédemment dans la détection des personnes. Pour remédier à ce problème, nous introduisons tout d'abord un module d'Attention Consciente des Piliers (PAA) empilable, qui améliore l'extraction des caractéristiques en piliers tout en réduisant le bruit dans les nuages de points. En intégrant le regroupement multi-canaux par point, l'attention ponctuelle, l'attention par canal et l'attention adaptée à la tâche dans un module simple, les capacités de représentation sont renforcées avec un besoin minimal supplémentaire en ressources informatiques. Nous présentons également Mini-BiFPN, un réseau de caractéristiques compact mais efficace qui crée un flux d'information bidirectionnel et une fusion croisée multi-niveaux entre les caractéristiques à différentes échelles pour mieux intégrer les caractéristiques multi-résolutions. Notre cadre proposé, appelé PiFeNet, a été évalué sur trois jeux de données largement utilisés pour la détection 3D des piétons, à savoir KITTI, JRDB et nuScenes, obtenant des performances au niveau de l'état de l'art (SOTA) sur KITTI Vue oiseau (BEV) et JRDB ainsi que des performances très compétitives sur nuScenes. Notre approche atteint une vitesse d'inférence de 26 images par seconde (FPS), ce qui en fait un détecteur en temps réel. Le code source de notre PiFeNet est disponible sur https://github.com/ldtho/PiFeNet.

Détection précise et en temps réel de piétons 3D à l'aide d'un réseau de piliers efficace et attentif | Articles de recherche récents | HyperAI