Pyramide de Contexte en Cascade pour l'achèvement Sémantique de Scènes 3D à Résolution Complète

La complétion sémantique de scène (CSS) vise à prédire simultanément l'occupation volumétrique et la catégorie sémantique d'une scène 3D. Elle aide les dispositifs intelligents à comprendre et à interagir avec les scènes environnantes. En raison des exigences élevées en mémoire, les méthodes actuelles ne produisent que des prédictions de complétion à faible résolution, perdant généralement les détails des objets. De plus, elles ignorent également les contextes spatiaux multi-échelles, qui jouent un rôle crucial pour l'inférence 3D. Pour remédier à ces problèmes, nous proposons dans ce travail un nouveau cadre d'apprentissage profond nommé Réseau Pyramidal de Contexte en Cascade (CCPNet), capable d'inférer conjointement l'occupation et les étiquettes sémantiques d'une scène 3D volumétrique à partir d'une seule image de profondeur. Le CCPNet proposé améliore la cohérence des étiquetages grâce à une pyramide de contexte en cascade. Parallèlement, il restaure progressivement les structures fines des objets sur la base des caractéristiques de bas niveau grâce aux modules de raffinement résiduel guidé (GRR). Notre cadre proposé présente trois avantages majeurs : (1) il modélise explicitement le contexte spatial 3D pour améliorer les performances ; (2) il génère des volumes 3D pleine résolution avec des détails préservant la structure ; (3) il capture des modèles légers avec de faibles exigences en mémoire tout en offrant une bonne extensibilité. De nombreux expériences montrent que malgré l'utilisation d'une carte de profondeur mono-vue, notre cadre proposé peut générer des résultats CSS de haute qualité et surpasser les approches de pointe sur les jeux de données synthétiques SUNCG et réels NYU.