HyperAIHyperAI
il y a 11 jours

Pyramid R-CNN : Vers une meilleure performance et adaptabilité pour la détection d'objets 3D

Jiageng Mao, Minzhe Niu, Haoyue Bai, Xiaodan Liang, Hang Xu, Chunjing Xu
Pyramid R-CNN : Vers une meilleure performance et adaptabilité pour la détection d'objets 3D
Résumé

Nous présentons un cadre flexible et à haute performance, nommé Pyramid R-CNN, pour la détection 3D d'objets à partir de nuages de points en deux étapes. Les approches actuelles s'appuient généralement sur les points ou les voxels d'intérêt pour l'extraction des caractéristiques des régions d'intérêt (RoI) lors de la deuxième étape, mais peinent à traiter efficacement la sparsité et la répartition non uniforme de ces points, ce qui peut entraîner des échecs dans la détection d'objets éloignés. Pour résoudre ces problèmes, nous proposons un nouveau module de deuxième étape, appelé pyramid RoI head, conçu pour apprendre de manière adaptative les caractéristiques à partir des points d'intérêt sparses. Le pyramid RoI head se compose de trois composants clés. Premièrement, nous introduisons le RoI-grid Pyramid, qui atténue le problème de sparsité en collectant de manière extensive les points d'intérêt pour chaque RoI selon une approche pyramidale. Deuxièmement, nous proposons le RoI-grid Attention, une nouvelle opération qui encode des informations plus riches à partir des points rares en intégrant de manière unifiée des opérateurs de points basés sur l'attention classique et sur les graphes. Troisièmement, nous introduisons le module Density-Aware Radius Prediction (DARP), qui s'adapte à différents niveaux de densité de points en ajustant dynamiquement la portée de focalisation des RoI. En combinant ces trois composants, notre pyramid RoI head est robuste face aux conditions de sparsité et d'imbalance, et peut être appliqué sur diverses architectures de base 3D pour améliorer de manière cohérente les performances de détection. Des expériences étendues montrent que Pyramid R-CNN surpassent largement les modèles d'état de l'art en détection 3D sur les jeux de données KITTI et Waymo Open.

Pyramid R-CNN : Vers une meilleure performance et adaptabilité pour la détection d'objets 3D | Articles de recherche récents | HyperAI