Codage compressif multivue pour la reconstruction 3D

Un objectif central de la reconnaissance visuelle est de comprendre les objets et les scènes à partir d'une seule image. La reconnaissance 2D a connu des progrès considérables grâce à l'apprentissage à grande échelle et aux représentations polyvalentes. En comparaison, la 3D présente de nouveaux défis liés aux occultations non représentées dans l'image. Les travaux antérieurs tentent de surmonter ces défis en inférant à partir de vues multiples ou en s'appuyant sur des modèles CAD rares et des a priori spécifiques à certaines catégories, ce qui entrave leur mise à l'échelle vers de nouvelles configurations. Dans cette étude, nous explorons la reconstruction 3D à partir d'une seule vue en apprenant des représentations généralisables inspirées par les avancées de l'apprentissage auto-supervisé. Nous présentons un cadre simple qui opère sur les points 3D d'objets individuels ou de scènes entières, associé à une formation à grande échelle et sans distinction de catégorie à partir de vidéos RGB-D diverses. Notre modèle, le Codage Compressif Multivue (MCC) (Multiview Compressive Coding), apprend à compresser l'apparence et la géométrie d'entrée pour prédire la structure 3D en interrogeant un décodeur sensible au 3D. La généralité et l'efficacité du MCC lui permettent d'apprendre à partir de sources de données largement variées et à grande échelle, avec une forte généralisation aux objets nouveaux imaginés par DALL$\cdot$E 2 ou capturés spontanément avec un iPhone.