Mesh R-CNN

Les progrès rapides dans la perception 2D ont conduit à des systèmes capables de détecter précisément les objets dans des images du monde réel. Cependant, ces systèmes effectuent leurs prédictions en 2D, ignorant ainsi la structure 3D du monde. Parallèlement, les avancées dans la prédiction de formes 3D se sont principalement concentrées sur des benchmarks synthétiques et des objets isolés. Nous unifions les progrès réalisés dans ces deux domaines. Nous proposons un système qui détecte les objets dans des images du monde réel et produit une maille triangulaire donnant la forme 3D complète de chaque objet détecté. Notre système, appelé Mesh R-CNN, améliore Mask R-CNN avec une branche de prédiction de mailles qui génère des mailles avec une structure topologique variable en prédissant d'abord des représentations voxelliques grossières, puis en les convertissant en mailles et en les affinant à l'aide d'un réseau de convolution graphique opérant sur les sommets et les arêtes de la maille. Nous validons notre branche de prédiction de mailles sur ShapeNet, où nous surpassons les travaux antérieurs en matière de prédiction de forme à partir d'une seule image. Nous déployons ensuite notre système Mesh R-CNN complet sur Pix3D, où nous détectons conjointement les objets et prédisons leurs formes 3D.