BiFuse: Tiefenschätzung für monokulare 360°-Bilder mittels Bi-Projektions-Fusion

Die Schätzung der Tiefeninformation aus einem monokularen 360-Grad-Bild ist ein aufkommendes Problem, das aufgrund der Verfügbarkeit von Konsumgeräten für 360-Grad-Aufnahmen und der Fähigkeit zur vollständigen räumlichen Wahrnehmung an Beliebtheit gewinnt. Während die Standards für 360-Grad-Imaging sich rasch weiterentwickeln, schlagen wir vor, die Tiefenkarte eines monokularen 360-Grad-Bildes durch Nachahmung sowohl der peripheren als auch der fovealen Sehfunktion des menschlichen Auges vorherzusagen. Dazu verwenden wir ein zweigeteiltes neuronales Netzwerk, das zwei gängige Projektionen nutzt: die equirektanguläre und die Würfelkarten-(cubemap-)Projektion. Insbesondere enthält die equirektanguläre Projektion einen vollständigen Sichtwinkel, verursacht jedoch Verzerrungen, während die Würfelkarten-Projektion Verzerrungen vermeidet, aber an den Rändern des Würfels Diskontinuitäten einführt. Um dieses Problem zu adressieren, schlagen wir ein Bi-Projektions-Fusionsverfahren zusammen mit lernbaren Masken vor, um die Merkmalskarten beider Projektionen auszugleichen. Darüber hinaus stellen wir ein sphärisches Padding-Verfahren für die Würfelkarten-Projektion vor, das die Diskontinuitäten an den Rändern jeder Würfelfläche verringert. Wir testen unsere Methode an vier Panorama-Datensätzen und zeigen, dass sie gegenüber bestehenden state-of-the-art-Verfahren signifikante Verbesserungen erzielt.