OmniFusion: 360 Grad monokulare Tiefenschätzung durch geometriebewusste Fusion

Ein bekanntes Problem bei der Anwendung von Deep-Learning-Methoden auf omnidirektionale Bilder ist die sphärische Verzerrung. Bei dichten Regressionsaufgaben wie der Tiefenschätzung, bei denen strukturelle Details entscheidend sind, führt die Anwendung einer herkömmlichen CNN-Schicht auf das verzerrte 360-Grad-Bild zu unerwünschtem Informationsverlust. In diesem Paper stellen wir einen neuen Ansatz zur monokularen Tiefenschätzung für 360-Grad-Bilder vor, namens OmniFusion, um das Problem der sphärischen Verzerrung zu bewältigen. Unser Ansatz transformiert ein 360-Grad-Bild in weniger verzerrte perspektivische Patche (sogenannte Tangentenbilder), um mittels CNN patchweise Vorhersagen zu erzielen, die anschließend zu einer finalen Ausgabe zusammengeführt werden. Um die Diskrepanz zwischen den patchweisen Vorhersagen zu behandeln – ein zentrales Problem, das die Qualität der Zusammenführung beeinträchtigt – schlagen wir einen neuen Rahmen mit folgenden Schlüsselkomponenten vor. Erstens entwickeln wir eine geometriebewusste Merkmalsfusion, die 3D-geometrische Merkmale mit 2D-Bildmerkmalen kombiniert, um die diskrepanzbedingten Abweichungen auszugleichen. Zweitens nutzen wir eine auf Selbst-Attention basierende Transformer-Architektur, um die patchweisen Informationen global zu aggregieren, was die Konsistenz weiter verbessert. Drittens führen wir ein iteratives Tiefenverfeinerungsverfahren ein, das die geschätzte Tiefe basierend auf genaueren geometrischen Merkmalen weiter verfeinert. Experimente zeigen, dass unsere Methode das Verzerrungsproblem erheblich reduziert und auf mehreren Benchmark-Datensätzen für monokulare 360-Grad-Tiefenschätzung führende Leistungen erzielt.