PanoFormer: Panorama Transformer für die Innenraum-360-Tiefenschätzung

Bestehende Methoden zur Panorama-Tiefenschätzung basierend auf Faltungsneuralen Netzen (CNNs) konzentrieren sich darauf, die panormischen Verzerrungen zu beseitigen, verfehlen jedoch eine effiziente Wahrnehmung panormischer Strukturen aufgrund des festen Empfangsfelds in CNNs. In dieser Arbeit wird der Panorama-Transformer (PanoFormer) vorgestellt, um die Tiefenschätzung in Panorama-Bildern zu verbessern, indem Tangenten-Teilflächen aus dem sphärischen Bereich, lernbare Token-Flüsse und auf die Panorama-Aufgabe zugeschnittene Metriken verwendet werden. Insbesondere werden die auf dem sphärischen Tangentenbereich angeordneten Teilflächen in Tokens aufgeteilt, um die negativen Auswirkungen panormischer Verzerrungen zu verringern. Da geometrische Strukturen für die Tiefenschätzung entscheidend sind, wird ein Selbst-Attention-Modul mit einem zusätzlichen, lernbaren Token-Fluss neu entworfen. Zudem berücksichtigt die Arbeit die Eigenschaften des sphärischen Bereichs und stellt zwei auf Panoramen spezialisierte Metriken vor, um die Leistung von Panorama-Tiefenschätzmodellen umfassend zu bewerten. Ausführliche Experimente zeigen, dass unsere Methode die derzeit besten Ansätze (SOTA) erheblich übertrifft. Darüber hinaus lässt sich die vorgeschlagene Methode effektiv auf die semantische Panorama-Segmentierung erweitern, eine ähnliche Pixel-zu-Pixel-Aufgabe. Der Quellcode wird verfügbar sein.