il y a 11 jours

ImVoxelNet : Projection Image vers Voxels pour la Détection Générale d'Objets 3D à Vue Unique et Multi-Vues

Danila Rukhovich, Anna Vorontsova, Anton Konushin

Résumé

Dans cet article, nous introduisons la détection d'objets 3D à partir d'images RGB multi-vues comme un problème d'optimisation end-to-end. Pour résoudre ce problème, nous proposons ImVoxelNet, une nouvelle méthode entièrement convolutive pour la détection d'objets 3D basée sur des images RGB monovues ou multi-vues. Le nombre d'images monovues dans chaque entrée multi-vue peut varier durant l'entraînement et l'inférence ; en réalité, ce nombre peut être différent pour chaque entrée multi-vue. ImVoxelNet traite efficacement à la fois les scènes intérieures et extérieures, ce qui en fait une approche générale. Plus précisément, elle obtient des résultats de pointe dans la détection de voitures sur les benchmarks KITTI (monovue) et nuScenes (multi-vue) parmi toutes les méthodes acceptant des images RGB. En outre, elle dépasse les méthodes existantes de détection d'objets 3D basées sur les images RGB sur le jeu de données SUN RGB-D. Sur ScanNet, ImVoxelNet établit une nouvelle référence pour la détection d'objets 3D multi-vues. Le code source et les modèles entraînés sont disponibles à l'adresse suivante : https://github.com/saic-vul/imvoxelnet.