HyperAIHyperAI
vor 2 Monaten

Pix2Vox: Kontextbasierte 3D-Rekonstruktion aus Einzel- und Mehrbildansichten

Haozhe Xie; Hongxun Yao; Xiaoshuai Sun; Shangchen Zhou; Shengping Zhang
Pix2Vox: Kontextbasierte 3D-Rekonstruktion aus Einzel- und Mehrbildansichten
Abstract

Die Wiederherstellung der 3D-Darstellung eines Objekts aus ein- oder mehreren Sicht-RGB-Bildern durch tiefgreifende neuronale Netze hat in den letzten Jahren zunehmend an Bedeutung gewonnen. Mehrere Hauptwerke (z.B. 3D-R2N2) verwenden rekurrente neuronale Netze (RNNs), um mehrere Feature Maps, die aus Eingangsbildern sequenziell extrahiert wurden, zu fusionieren. Allerdings sind RNN-basierte Ansätze nicht in der Lage, konsistente Rekonstruktionsergebnisse zu erzeugen, wenn dieselbe Menge von Eingangsbildern in unterschiedlicher Reihenfolge gegeben wird. Zudem können RNNs aufgrund des Verlustes langfristiger Erinnerungen die Eingangsbilder nicht vollständig nutzen, um die Rekonstruktionsergebnisse zu verfeinern. Um diese Probleme zu lösen, schlagen wir einen neuen Rahmen für die ein- und mehrsichtige 3D-Rekonstruktion vor, den wir Pix2Vox nennen. Durch eine gut konzipierte Encoder-Decoder-Architektur generiert es aus jedem Eingangsbild ein grobes 3D-Volumen. Anschließend wird ein kontextbewusster Fusionierungsmodul eingeführt, um selektiv hochwertige Rekonstruktionen für jeden Teil (z.B. Tischbeine) aus verschiedenen groben 3D-Volumina zu wählen und so ein gefusioniertes 3D-Volumen zu erhalten. Schließlich verfeinert ein Refiner das gefusionierte 3D-Volumen weiter, um die endgültige Ausgabe zu erzeugen. Experimentelle Ergebnisse auf den Benchmarks ShapeNet und Pix3D zeigen, dass das vorgeschlagene Pix2Vox deutlich besser als der aktuelle Stand der Technik abschneidet. Darüber hinaus ist die vorgeschlagene Methode im Hinblick auf die Rückwärtsinferenzzeit etwa 24-mal schneller als 3D-R2N2. Die Experimente mit unbekannten 3D-Kategorien von ShapeNet haben zudem die überlegenen Generalisierungsfähigkeiten unserer Methode bewiesen.

Pix2Vox: Kontextbasierte 3D-Rekonstruktion aus Einzel- und Mehrbildansichten | Neueste Forschungsarbeiten | HyperAI