Pix3D : Jeu de données et méthodes pour la modélisation 3D à partir d'une seule image

Nous étudions la modélisation de formes 3D à partir d'une seule image et apportons des contributions dans trois domaines. Premièrement, nous présentons Pix3D, une base de référence à grande échelle comprenant des paires d'images-formes diverses avec un alignement 2D-3D au niveau des pixels. Pix3D a de nombreuses applications dans les tâches liées aux formes, telles que la reconstruction, la recherche et l'estimation de la vue. Cependant, la construction d'un tel ensemble de données à grande échelle est très complexe ; les ensembles de données existants contiennent soit uniquement des données synthétiques, soit manquent d'un alignement précis entre les images 2D et les formes 3D, soit ne disposent que d'un nombre limité d'images. Deuxièmement, nous calibrons les critères d'évaluation pour la reconstruction de formes 3D grâce à des études comportementales, et nous les utilisons pour évaluer objectivement et systématiquement les algorithmes de reconstruction de pointe sur Pix3D. Troisièmement, nous concevons un modèle novateur qui effectue simultanément la reconstruction 3D et l'estimation de la pose ; notre approche d'apprentissage multi-tâches atteint des performances de pointe dans les deux tâches.