Pix2Vox++: Multiskalige kontextbewusste 3D-Objektrekonstruktion aus einzelnen und mehreren Bildern

Die Rekonstruktion der 3D-Form eines Objekts aus einzelnen oder mehreren Bildern mittels tiefer neuronaler Netze hat in den letzten Jahren zunehmend Aufmerksamkeit erregt. Hauptströmige Ansätze (z. B. 3D-R2N2) verwenden rekurrente neuronale Netze (RNNs), um die Merkmalskarten der Eingabebilder sequenziell zu fusionieren. Allerdings liefern RNN-basierte Methoden bei denselben Eingabebildern, die in unterschiedlicher Reihenfolge präsentiert werden, nicht konsistente Rekonstruktionsergebnisse. Zudem können RNNs wichtige Merkmale aus frühen Eingabebildern aufgrund von Langzeitgedächtnisverlusten verlieren. Um diese Probleme zu lösen, schlagen wir einen neuartigen Rahmen für die Rekonstruktion von 3D-Objekten aus einer Einzelansicht und mehreren Ansichten vor, namens Pix2Vox++. Durch einen sorgfältig entworfenen Encoder-Decoder generiert es aus jedem Eingabebild einen groben 3D-Volumen. Anschließend wird ein mehrskaliges, kontextbewusstes Fusionsmodul eingeführt, das adaptiv hochwertige Rekonstruktionen für verschiedene Bereiche aus allen groben 3D-Volumina auswählt, um ein gefundenes 3D-Volumen zu erzeugen. Um fehlerhafte Bereiche im gefundenen 3D-Volumen weiter zu korrigieren, wird ein Refiner eingesetzt, um das endgültige Ergebnis zu generieren. Experimentelle Ergebnisse auf den Benchmarks ShapeNet, Pix3D und Things3D zeigen, dass Pix2Vox++ sowohl hinsichtlich Genauigkeit als auch Effizienz gegenüber den derzeit besten Methoden besticht.