Total3DUnderstanding : Reconstruction conjointe de la disposition, de la pose des objets et du maillage pour des scènes intérieures à partir d'une seule image

La reconstruction sémantique des scènes intérieures fait référence à la fois à la compréhension de la scène et à la reconstruction d’objets. Les travaux existants traitent soit d’un seul aspect de ce problème, soit se concentrent sur des objets indépendants. Dans cet article, nous comblons le fossé entre la compréhension et la reconstruction, et proposons une solution end-to-end permettant de reconstruire conjointement la disposition de la pièce, les boîtes englobantes 3D des objets et leurs maillages à partir d’une seule image. Au lieu de traiter séparément la compréhension de la scène et la reconstruction d’objets, notre méthode repose sur un contexte global de la scène et introduit une hiérarchie de type grossier-vers-fin comprenant trois composants : 1. la disposition de la pièce avec la pose de la caméra ; 2. les boîtes englobantes 3D des objets ; 3. les maillages des objets. Nous affirmons que la compréhension du contexte de chaque composant peut aider à la tâche de décomposition des autres, ce qui permet une compréhension et une reconstruction conjointes. Les expériences menées sur les jeux de données SUN RGB-D et Pix3D montrent que notre méthode surpasse de manière cohérente les méthodes existantes en estimation de disposition intérieure, détection d’objets 3D et reconstruction de maillages.