CenterSnap : Reconnaissance de forme 3D multi-objets en une seule prise et estimation de la pose 6D catégorielle et de la taille

Ce document étudie la tâche complexe de reconstruction 3D simultanée, d'estimation de la position et de la taille en 6D à partir d'une seule observation RGB-D. Contrairement à l'estimation de pose au niveau des instances, nous nous concentrons sur un problème plus ardu où les modèles CAD ne sont pas disponibles au moment de l'inférence. Les approches existantes suivent principalement une pipeline multi-étapes complexe qui localise et détecte chaque instance d'objet dans l'image avant de régresser vers leurs maillages 3D ou leurs positions en 6D. Ces méthodes souffrent d'un coût computationnel élevé et d'une performance faible dans des scénarios complexes impliquant plusieurs objets, où des occultations peuvent être présentes. Par conséquent, nous présentons une approche simple en une seule étape pour prédire à la fois la forme 3D et estimer la position en 6D et la taille des objets, sans utiliser de boîtes englobantes. Plus précisément, notre méthode traite les instances d'objets comme des centres spatiaux, où chaque centre représente la forme complète d'un objet ainsi que sa position en 6D et sa taille. Grâce à cette représentation par pixel, notre approche peut reconstruire en temps réel (40 FPS) plusieurs instances d'objets inédits et prédire leur position en 6D et leurs tailles en une seule passe avant-propagation. À travers des expériences exhaustives, nous démontrons que notre approche surpasse significativement toutes les méthodes de base pour le complétion de forme et l'estimation catégorielle de la position et de la taille en 6D sur les jeux de données ShapeNet et NOCS respectivement, avec une amélioration absolue de 12,6 % du mAP pour la position en 6D des instances d'objets inédits du monde réel.