3D-R2N2: Ein einheitlicher Ansatz für die 3D-Objektrekonstruktion aus einzelnen und mehreren Blickwinkeln

Inspired by the recent success of methods that employ shape priors to achieve robust 3D reconstructions, we propose a novel recurrent neural network architecture that we call the 3D Recurrent Reconstruction Neural Network (3D-R2N2). The network learns a mapping from images of objects to their underlying 3D shapes from a large collection of synthetic data. Our network takes in one or more images of an object instance from arbitrary viewpoints and outputs a reconstruction of the object in the form of a 3D occupancy grid. Unlike most of the previous works, our network does not require any image annotations or object class labels for training or testing. Our extensive experimental analysis shows that our reconstruction framework i) outperforms the state-of-the-art methods for single view reconstruction, and ii) enables the 3D reconstruction of objects in situations where traditional SFM/SLAM methods fail (due to lack of texture and/or wide baseline).Übersetzung:Angeregt durch den jüngsten Erfolg von Methoden, die Formpriors einsetzen, um robuste 3D-Rekonstruktionen zu erzielen, schlagen wir eine neue rekurrente Neuronale-Netz-Architektur vor, die wir das 3D-Rekurrente-Rekonstruktions-Neuronale Netz (3D-R2N2) nennen. Das Netzwerk lernt eine Abbildung von Objektbildern auf ihre zugrunde liegenden 3D-Formen aus einer großen Sammlung synthetischer Daten. Unser Netzwerk nimmt ein oder mehrere Bilder einer Objektinstanz aus beliebigen Blickwinkeln entgegen und gibt eine Rekonstruktion des Objekts in Form eines 3D-Besetzungsnetzes aus. Im Gegensatz zu den meisten früheren Arbeiten benötigt unser Netzwerk weder Bildannotierungen noch Objektklassifikationslabels für das Training oder Testing. Unsere umfangreiche experimentelle Analyse zeigt, dass unser Rekonstruktionsrahmen i) die Stand der Technik übertreffen kann bei der Rekonstruktion aus einer einzelnen Ansicht und ii) die 3D-Rekonstruktion von Objekten ermöglicht, selbst wenn traditionelle SFM/SLAM-Methoden versagen (aufgrund mangelnder Textur und/oder breiter Baseline).