HyperAIHyperAI
il y a 2 mois

Étude des erreurs de localisation pour la détection d'objets 3D monoculaire

Ma, Xinzhu ; Zhang, Yinmin ; Xu, Dan ; Zhou, Dongzhan ; Yi, Shuai ; Li, Haojie ; Ouyang, Wanli
Étude des erreurs de localisation pour la détection d'objets 3D monoculaire
Résumé

L'estimation de boîtes englobantes 3D à partir d'images monoculaires est un élément essentiel dans la conduite autonome, bien que la détection précise d'objets 3D à partir de ce type de données soit très complexe. Dans cette étude, grâce à des expériences diagnostiques intensives, nous quantifions l'impact introduit par chaque sous-tâche et avons découvert que l'« erreur de localisation » est le facteur crucial limitant la détection 3D monoculaire. De plus, nous examinons les raisons sous-jacentes des erreurs de localisation, analysons les problèmes qu'elles peuvent causer et proposons trois stratégies. Premièrement, nous réexaminons le désalignement entre le centre de la boîte englobante 2D et le centre projeté de l'objet 3D, qui est un facteur clé responsable d'une faible précision de localisation. Deuxièmement, nous constatons que la localisation précise d'objets éloignés avec les technologies actuelles est presque impossible, tandis que ces échantillons peuvent induire en erreur le réseau appris. À cet effet, nous proposons d'éliminer ces échantillons du jeu d'entraînement pour améliorer les performances globales du détecteur. Enfin, nous proposons une nouvelle perte orientée vers l'IoU (Intersection over Union) 3D pour l'estimation de la taille de l'objet, qui n'est pas affectée par l'« erreur de localisation ». Nous menons des expériences approfondies sur le jeu de données KITTI, où notre méthode proposée atteint une détection en temps réel et surpass largement les méthodes précédentes. Le code sera rendu disponible à : https://github.com/xinzhuma/monodle.