MarrNet : Reconstruction de formes 3D par le biais de croquis 2,5D

La reconstruction d'objets 3D à partir d'une seule image est un problème hautement sous-déterminé, nécessitant une connaissance a priori forte des formes 3D plausibles. Cela introduit des défis pour les approches basées sur l'apprentissage, car les annotations d'objets 3D sont rares dans les images réelles. Les travaux précédents ont choisi de s'entraîner sur des données synthétiques avec des informations 3D de vérité terrain, mais ont souffert de problèmes d'adaptation de domaine lorsqu'ils étaient testés sur des données réelles. Dans ce travail, nous proposons MarrNet, un modèle entraînable de bout en bout qui estime séquentiellement des esquisses 2.5D et la forme d'objet 3D. Notre formulation dissociée en deux étapes présente trois avantages. Premièrement, par rapport à la forme complète 3D, les esquisses 2.5D sont beaucoup plus faciles à récupérer à partir d'une image 2D ; les modèles qui récupèrent des esquisses 2.5D sont également plus susceptibles de se transférer des données synthétiques aux données réelles. Deuxièmement, pour la reconstruction 3D à partir d'esquisses 2.5D, les systèmes peuvent apprendre uniquement à partir de données synthétiques. Cela est possible car nous pouvons facilement rendre des esquisses 2.5D réalistes sans modéliser les variations d'apparence des objets dans les images réelles, y compris l'éclairage, la texture, etc. Cela atténue encore davantage le problème d'adaptation de domaine. Troisièmement, nous dérivons des fonctions projectives différentiables de la forme 3D aux esquisses 2.5D ; le cadre est donc entraînable de bout en bout sur des images réelles, sans nécessiter d'annotations humaines. Notre modèle atteint des performances de pointe en reconstruction de formes 3D.注释:- "under-determined" 翻译为 "sous-déterminé",这是在法语文献中常用的术语。- "ground truth" 翻译为 "vérité terrain",这是在法语科技文献中常见的表达。- "state-of-the-art" 翻译为 "de pointe",这是指最先进、最高水平的意思。