vor 2 Monaten

360SD-Net: 360° Stereotiefenschätzung mit lernbarem Kostenvolumen

Ning-Hsu Wang; Bolivar Solarte; Yi-Hsuan Tsai; Wei-Chen Chiu; Min Sun

Abstract

Kürzlich haben end-to-end trainierbare tiefe Neuronale Netze die stereoskopische Tiefenschätzung für perspektivische Bilder erheblich verbessert. Allerdings können 360°-Bilder, die unter equirektangularer Projektion aufgenommen wurden, diese bestehenden Methoden nicht direkt nutzen, da durch die Verzerrung (d.h., Linien im 3D-Raum werden nicht als Linien in der 2D-Projektion dargestellt) beeinträchtigt. Um dieses Problem zu lösen, präsentieren wir eine neuartige Architektur, die speziell für sphärische Disparität unter Verwendung von oben-unten 360°-Kameraspaaren entwickelt wurde. Darüber hinaus schlagen wir vor, das Verzerrungsproblem durch (1) einen zusätzlichen Eingabezweig zu mildern, der die Position und Beziehung jedes Pixels in den sphärischen Koordinaten erfasst, und (2) ein Kostenvolumen, das auf einem lernfähigen Schiebefilter basiert. Aufgrund des Mangels an 360°-stereoskopischen Daten haben wir zwei 360°-stereoskopische Datensätze aus Matterport3D und Stanford3D gesammelt, um Training und Evaluation durchzuführen. Ausführliche Experimente und eine Abstrahlierungsstudie werden vorgestellt, um unsere Methode gegenüber existierenden Algorithmen zu validieren. Schließlich zeigen wir vielversprechende Ergebnisse in realen Umgebungen mit Bildern, die mit zwei Kameras vom Verbrauchermarkt aufgenommen wurden.