HyperAIHyperAI
il y a 2 mois

MonoScene : Complétion monulaire de la scène sémantique 3D

Cao, Anh-Quan ; de Charette, Raoul
MonoScene : Complétion monulaire de la scène sémantique 3D
Résumé

MonoScene propose un cadre de complétion sémantique 3D de scène (SSC), où la géométrie dense et les sémantiques d'une scène sont inférées à partir d'une seule image RGB monoculaire. Contrairement à la littérature SSC, qui repose sur des entrées 2.5D ou 3D, nous résolvons le problème complexe de la reconstruction 3D de scènes à partir d'images 2D tout en inférant conjointement leurs sémantiques. Notre cadre repose sur des UNets successifs 2D et 3D, reliés par une nouvelle projection de caractéristiques 2D-3D inspirée de l'optique, et introduit une relation contextuelle 3D pour imposer la cohérence spatio-sémantique. En plus des contributions architecturales, nous introduisons de nouvelles pertes globales de scène et locales de frustums. Les expériences montrent que nous surpassons la littérature sur tous les métriques et jeux de données, tout en générant des scènes plausibles même au-delà du champ de vision de la caméra. Notre code et nos modèles entraînés sont disponibles à l'adresse suivante : https://github.com/cv-rits/MonoScene.