HyperAIHyperAI
il y a 17 jours

VoxelKP : Une architecture de réseau basée sur les voxels pour l'estimation des points clés humains dans les données LiDAR

Jian Shi, Peter Wonka
VoxelKP : Une architecture de réseau basée sur les voxels pour l'estimation des points clés humains dans les données LiDAR
Résumé

Nous présentons \textit{VoxelKP}, une nouvelle architecture réseau entièrement creuse conçue pour l’estimation des points clés humains à partir de données LiDAR. Le défi principal réside dans le fait que les objets sont répartis de manière éparses dans l’espace 3D, tandis que la détection des points clés humains nécessite des informations locales détaillées là où des humains sont présents. Dans cet article, nous proposons quatre idées novatrices. Premièrement, nous introduisons des noyaux sélectifs creux afin de capturer le contexte multi-échelle. Deuxièmement, nous proposons une attention par boîte creuse pour se concentrer sur l’apprentissage des corrélations spatiales entre les points clés au sein de chaque instance humaine. Troisièmement, nous intégrons une encodage spatial afin d’exploiter les coordonnées 3D absolues lors de la projection des voxels 3D sur une grille 2D représentant une vue de dessus. Enfin, nous proposons un apprentissage hybride des caractéristiques, combinant le traitement des caractéristiques par voxel avec la convolution creuse. Nous évaluons notre méthode sur le jeu de données Waymo et obtenons une amélioration de $27\%$ sur le critère MPJPE par rapport à l’état de l’art, \textit{HUM3DIL}, entraîné sur les mêmes données, et de $12\%$ par rapport à l’état de l’art, \textit{GC-KPL}, préentraîné sur un jeu de données 25 fois plus volumineux. À notre connaissance, \textit{VoxelKP} est le premier réseau à étape unique et entièrement creux spécifiquement conçu pour traiter le défi de l’estimation 3D des points clés à partir de données LiDAR, atteignant des performances de pointe. Notre code est disponible à l’adresse \url{https://github.com/shijianjian/VoxelKP}.