HyperAIHyperAI
il y a 11 jours

La cohérence entre les caractéristiques implicites et explicites est cruciale pour la détection 3D monocular d'objets

Qian Ye, Ling Jiang, Wang Zhen, Yuyang Du
La cohérence entre les caractéristiques implicites et explicites est cruciale pour la détection 3D monocular d'objets
Résumé

Les agents autonomes à faible coût, notamment les véhicules à conduite autonome, adoptent principalement la détection 3D d'objets à partir d'une seule caméra pour percevoir leur environnement. Ce papier étudie les méthodes de représentation intermédiaire 3D, qui génèrent des caractéristiques 3D intermédiaires destinées à des tâches ultérieures. Par exemple, ces caractéristiques 3D peuvent servir d'entrée non seulement à la détection, mais aussi à des prédictions et/ou à des plans en boucle fermée (end-to-end) nécessitant une représentation de caractéristiques vue du dessus (bird’s-eye-view, BEV). L’étude révèle que, dans la génération de représentations 3D, les méthodes antérieures ne préservent pas la cohérence entre les poses implicites des objets dans l’espace latent — en particulier leurs orientations — et les poses explicitement observées dans l’espace euclidien, ce qui peut gravement nuire à la performance du modèle. Pour résoudre ce problème, nous proposons une nouvelle méthode de détection monocabine, la première à prendre explicitement en compte les poses afin de garantir leur cohérence entre les caractéristiques implicites et explicites. En outre, nous introduisons un mécanisme d’attention par rayons locaux, permettant de transformer efficacement les caractéristiques d’image en voxels aux emplacements 3D précis. Troisièmement, nous proposons une fonction d’encodage positionnel gaussien conçue à la main, qui surpasserait l’encodage sinusoidal tout en conservant l’avantage d’être continu. Les résultats montrent que notre méthode améliore la méthode d’état de l’art en représentation intermédiaire 3D de 3,15 %. À la date de soumission de ce travail, nous occupons la première place parmi toutes les méthodes monocabines rapportées sur le classement KITTI pour les benchmarks de détection 3D et BEV.

La cohérence entre les caractéristiques implicites et explicites est cruciale pour la détection 3D monocular d'objets | Articles de recherche récents | HyperAI