Pix2Vox : Reconstruction 3D contextuelle à partir d'images mono et multi-vues

La récupération de la représentation 3D d'un objet à partir d'images RGB mono ou multi-vues par des réseaux neuronaux profonds a suscité une attention croissante ces dernières années. Plusieurs travaux majeurs (par exemple, 3D-R2N2) utilisent des réseaux neuronaux récurrents (RNN) pour fusionner séquentiellement plusieurs cartes de caractéristiques extraites des images d'entrée. Cependant, lorsque le même ensemble d'images d'entrée est fourni dans un ordre différent, les approches basées sur les RNN ne peuvent pas produire des résultats de reconstruction cohérents. De plus, en raison de la perte de mémoire à long terme, les RNN ne peuvent pas pleinement exploiter les images d'entrée pour affiner les résultats de reconstruction. Pour résoudre ces problèmes, nous proposons un nouveau cadre pour la reconstruction 3D mono et multi-vues, nommé Pix2Vox. En utilisant un encodeur-décodeur bien conçu, il génère un volume 3D grossier à partir de chaque image d'entrée. Ensuite, un module de fusion contextuelle est introduit pour sélectionner de manière adaptative des reconstructions de haute qualité pour chaque partie (par exemple, les pieds d'une table) à partir de différents volumes 3D grossiers afin d'obtenir un volume 3D fusionné. Enfin, un affinateur affine davantage le volume 3D fusionné pour générer la sortie finale. Les résultats expérimentaux sur les benchmarks ShapeNet et Pix3D montrent que le Pix2Vox proposé surpassent largement les méthodes actuelles. De plus, la méthode proposée est 24 fois plus rapide que 3D-R2N2 en termes de temps d'inférence inverse. Les expériences menées sur des catégories 3D inconnues de ShapeNet ont démontré les capacités supérieures de généralisation de notre méthode.