M3D-RPN : Réseau de proposition de régions monœil pour la détection d'objets en 3D

La compréhension du monde en trois dimensions (3D) est un élément crucial de la conduite autonome urbaine. Généralement, la combinaison de capteurs LiDAR coûteux et d'imagerie stéréoscopique RGB a été essentielle pour le succès des algorithmes de détection d'objets 3D, tandis que les méthodes basées uniquement sur des images monoculaires subissent une baisse drastique des performances. Nous proposons de réduire cet écart en reformulant le problème de détection 3D monoculaire comme un réseau de proposition de régions 3D autonome. Nous exploitons la relation géométrique entre les perspectives 2D et 3D, permettant aux boîtes 3D d'utiliser des caractéristiques convolutives bien connues et puissantes générées dans l'espace image. Pour aider à résoudre les estimations ardues des paramètres 3D, nous avons également conçu des couches convolutives sensibles à la profondeur qui permettent le développement de caractéristiques spécifiques à chaque emplacement, améliorant ainsi la compréhension de la scène 3D. Comparée aux travaux antérieurs en détection 3D monoculaire, notre méthode se compose uniquement du réseau de proposition de régions 3D proposé, sans s'appuyer sur des réseaux externes, des données supplémentaires ou plusieurs étapes. M3D-RPN est capable d'améliorer significativement les performances tant pour la détection d'objets 3D monoculaire que pour les tâches en vue du dessus (Bird's Eye View) au sein du jeu de données KITTI pour la conduite autonome urbaine, tout en utilisant efficacement un modèle multi-classes partagé.