HyperAIHyperAI
il y a 2 mois

Compréhension Coopérative et Holistique des Scènes : Unification de l'Estimation des Objets 3D, du Disposition et de la Position de la Caméra

Siyuan Huang; Siyuan Qi; Yinxue Xiao; Yixin Zhu; Ying Nian Wu; Song-Chun Zhu
Compréhension Coopérative et Holistique des Scènes : Unification de l'Estimation des Objets 3D, du Disposition et de la Position de la Caméra
Résumé

La compréhension holistique des scènes intérieures en 3D consiste à récupérer conjointement les i) boîtes englobantes d'objets, ii) disposition de la pièce, et iii) position de la caméra, le tout en trois dimensions. Les méthodes existantes sont soit inefficaces, soit ne traitent que partiellement le problème. Dans cet article, nous proposons un modèle de bout en bout qui résout simultanément les trois tâches en temps réel à partir d'une seule image RGB. L'essence de la méthode proposée est d'améliorer les prédictions par i) la paramétrisation des cibles (par exemple, les boîtes 3D) plutôt que leur estimation directe, et ii) l'entraînement coopératif entre différents modules au lieu de les entraîner individuellement. Plus précisément, nous paramétrisons les boîtes englobantes 3D des objets par les prédictions provenant de plusieurs modules, à savoir la position 3D de la caméra et les attributs des objets. La méthode proposée offre deux avantages majeurs : i) La paramétrisation aide à maintenir la cohérence entre l'image 2D et le monde 3D, réduisant ainsi considérablement les variations de prédiction dans les coordonnées 3D. ii) Des contraintes peuvent être imposées sur la paramétrisation pour entraîner différents modules simultanément. Nous appelons ces contraintes « pertes coopératives » car elles permettent l'entraînement et l'inférence conjoints. Nous utilisons trois pertes coopératives pour les boîtes englobantes 3D, les projections 2D et les contraintes physiques afin d'estimer une scène 3D géométriquement cohérente et physiquement plausible. Les expériences menées sur le jeu de données SUN RGB-D montrent que la méthode proposée surpasse significativement les approches précédentes en détection d'objets 3D, estimation de la disposition 3D, estimation de la position 3D de la caméra et compréhension globale de la scène.

Compréhension Coopérative et Holistique des Scènes : Unification de l'Estimation des Objets 3D, du Disposition et de la Position de la Caméra | Articles de recherche récents | HyperAI