Analyse et reconstruction holistiques d'une scène 3D à partir d'une seule image RGB

Nous proposons un cadre computationnel pour analyser conjointement une seule image RGB et reconstruire une configuration 3D holistique composée d'un ensemble de modèles CAD en utilisant un modèle de grammaire stochastique. Plus précisément, nous introduisons une Grammaire de Scène Holistique (GSH) pour représenter la structure 3D des scènes, qui caractérise une distribution conjointe sur l'espace fonctionnel et géométrique des scènes intérieures. La GSH proposée capture trois dimensions essentielles et souvent latentes des scènes intérieures : i) le contexte humain latent, décrivant les possibilités d'utilisation et la fonctionnalité d'un agencement de pièce, ii) les contraintes géométriques sur les configurations de scène, et iii) les contraintes physiques garantissant une analyse et une reconstruction physiquement plausibles. Nous résolvons ce problème d'analyse et de reconstruction conjointes par une approche d'analyse par synthèse, visant à minimiser les différences entre l'image d'entrée et les images rendues générées par notre représentation 3D, dans l'espace de profondeur, de normale de surface et de carte de segmentation d'objets. La configuration optimale, représentée par un graphe d'analyse, est inférée à l'aide de chaînes de Markov Monte Carlo (MCMC), qui parcourt efficacement l'espace des solutions non différentiables, en optimisant conjointement la localisation des objets, la disposition 3D et le contexte humain latent. Les résultats expérimentaux montrent que l'algorithme proposé améliore la capacité de généralisation et dépasse considérablement les méthodes précédentes en matière d'estimation de la disposition 3D, de détection d'objets 3D et de compréhension holistique des scènes.