HyperAIHyperAI
il y a 2 mois

MonoDTR : Détection monulaire d'objets 3D avec Transformers sensibles à la profondeur

Huang, Kuan-Chih ; Wu, Tsung-Han ; Su, Hung-Ting ; Hsu, Winston H.
MonoDTR : Détection monulaire d'objets 3D avec Transformers sensibles à la profondeur
Résumé

La détection d'objets 3D monoculaire est une tâche importante mais complexe dans le domaine de la conduite autonome. Certaines méthodes existantes utilisent des informations de profondeur provenant d'un estimateur de profondeur prêt à l'emploi pour aider à la détection 3D, mais elles souffrent d'un fardeau informatique supplémentaire et obtiennent des performances limitées en raison de priorités de profondeur inexactes. Pour atténuer ces problèmes, nous proposons MonoDTR, un réseau neuronal transformateur innovant et intégré prenant en compte la profondeur pour la détection d'objets 3D monoculaire. Ce réseau se compose principalement de deux composants : (1) le module d'amélioration des caractéristiques prenant en compte la profondeur (Depth-Aware Feature Enhancement, DFE) qui apprend implicitement des caractéristiques sensibles à la profondeur avec une supervision auxiliaire sans nécessiter de calculs supplémentaires, et (2) le module transformateur prenant en compte la profondeur (Depth-Aware Transformer, DTR) qui intègre globalement des caractéristiques contextuelles et sensibles à la profondeur. De plus, contrairement aux encodages positionnels pixel par pixel conventionnels, nous introduisons un nouvel encodage positionnel de profondeur (Depth Positional Encoding, DPE) pour injecter des indices positionnels de profondeur dans les transformateurs. Nos modules proposés prenant en compte la profondeur peuvent être facilement intégrés aux détecteurs d'objets 3D monoculaires existants basés uniquement sur les images afin d'améliorer leurs performances. Des expériences approfondies sur l'ensemble de données KITTI montrent que notre approche surpassent les méthodes précédentes basées sur une seule caméra et atteint une détection en temps réel. Le code source est disponible à l'adresse suivante : https://github.com/kuanchihhuang/MonoDTR

MonoDTR : Détection monulaire d'objets 3D avec Transformers sensibles à la profondeur | Articles de recherche récents | HyperAI