UniFuse: Unidirektionale Fusion für die Tiefenschätzung von 360$^{\circ}$-Panoramen

Die Schätzung von Tiefen aus sphärischen Panoramen wird zu einem zunehmend populären Forschungsthema, da ein Panorama eine vollständige Sichtweite der Umgebung bietet und somit eine relativ vollständige Beschreibung einer Szene ermöglicht. Die Anwendung gut erforschter Convolutional Neural Networks (CNNs), die für perspektivische Bilder entwickelt wurden, auf die herkömmliche Darstellung sphärischer Panoramen – nämlich die equirektanguläre Projektion – ist jedoch suboptimal, da sich die Abbildung in Richtung der Pole stark verformt. Eine alternative Darstellung ist die Würfelpanoramenprojektion (cubemap projection), die frei von Verzerrungen ist, jedoch an den Kanten diskontinuierlich ist und eine begrenzte Sichtweite aufweist. In diesem Paper stellen wir einen neuen Framework vor, der Merkmale aus beiden Projektionen fusioniert, wobei die Merkmale der Würfelpanoramen nur in Richtung der equirektangulären Darstellung – und zwar ausschließlich im Dekodierungsstadium – eingespeist werden. Im Gegensatz zu jüngeren Ansätzen mit bidirektionaler Fusion, die sowohl im Kodierungs- als auch im Dekodierungsstadium arbeiten, ist unsere Fusionsstrategie deutlich effizienter. Zusätzlich haben wir ein leistungsfähigeres Fusionsmodul für unsere Strategie entworfen. Experimente bestätigen die Wirksamkeit unserer vorgeschlagenen Fusionsstrategie und des Moduls, und unser Modell erreicht auf vier gängigen Datensätzen einen Stand der Technik. Zusätzliche Experimente zeigen, dass unser Modell zudem Vorteile hinsichtlich Komplexität und Generalisierbarkeit aufweist. Der Quellcode ist unter https://github.com/alibaba/UniFuse-Unidirectional-Fusion verfügbar.