ImVoteNet : Accroître la détection d'objets 3D dans les nuages de points grâce aux votes d'images

La détection d'objets 3D a connu un progrès rapide grâce aux avancées des réseaux de neurones profonds appliqués aux nuages de points. Certaines études récentes ont même atteint des performances de pointe en ne s'appuyant que sur des nuages de points en entrée (par exemple, VoteNet). Toutefois, les données de nuages de points présentent des limitations intrinsèques : elles sont denses, manquent d'informations colorimétriques et sont souvent affectées par le bruit des capteurs. À l'inverse, les images offrent une haute résolution et des textures riches, ce qui permet de compléter efficacement la géométrie 3D fournie par les nuages de points. Néanmoins, la manière d'utiliser de manière efficace les informations d'image pour soutenir la détection basée sur les nuages de points reste une question ouverte. Dans ce travail, nous nous appuyons sur VoteNet et proposons une architecture de détection 3D appelée ImVoteNet, spécifiquement conçue pour les scènes RGB-D. ImVoteNet repose sur la fusion de votes 2D extraits des images et de votes 3D provenant des nuages de points. Contrairement aux travaux antérieurs sur la détection multi-modale, nous extrayons explicitement à la fois des caractéristiques géométriques et sémantiques à partir des images 2D. Nous exploitons les paramètres de la caméra pour projeter ces caractéristiques dans l'espace 3D. Pour améliorer la synergie de la fusion des caractéristiques 2D et 3D, nous introduisons également un schéma d'entraînement multi-tours. Nous validons notre modèle sur le défi du jeu de données SUN RGB-D, atteignant ainsi une amélioration de 5,7 points de mAP par rapport aux résultats les plus avancés. Nous fournissons également des études d'ablation détaillées pour analyser la contribution de chaque choix architectural.