GLPanoDepth: Globale-zu-lokale panoramische Tiefenschätzung

In diesem Paper stellen wir eine lernbasierte Methode zur Vorhersage dichter Tiefenwerte einer Szene aus einem monokularen omnidirektionalen Bild vor. Ein omnidirektionales Bild verfügt über einen vollen Gesichtsfeldbereich und liefert eine viel umfassendere Beschreibung der Szene im Vergleich zu perspektivischen Bildern. Allerdings sind vollständig konvolutionale Netzwerke, auf die die meisten aktuellen Lösungen angewiesen sind, nicht in der Lage, reiche globale Kontextinformationen aus der Panorama-Darstellung zu erfassen. Um dieses Problem sowie die Verzerrung der equirektangulären Projektion in der Panorama-Darstellung zu bewältigen, schlagen wir Cubemap Vision Transformers (CViT), eine neue Transformer-basierte Architektur, vor, die langreichweite Abhängigkeiten modellieren und verzerrungsfreie globale Merkmale aus der Panorama-Darstellung extrahieren kann. Wir zeigen, dass Cubemap Vision Transformers in jeder Stufe ein globales Rezeptivfeld besitzen und kohärente globale Vorhersagen für sphärische Signale liefern können. Um wichtige lokale Merkmale zu bewahren, ergänzen wir unsere Pipeline zusätzlich um einen konvolutionalen Zweig (bezeichnet als GLPanoDepth) und fügen globale Merkmale aus den Cubemap Vision Transformers auf mehreren Skalen hinzu. Diese globale-zu-lokale-Strategie ermöglicht es uns, sowohl nützliche globale als auch lokale Merkmale in der Panorama-Darstellung optimal auszunutzen und erreicht damit die derzeit beste Leistung bei der Panorama-Tiefenschätzung.