OmniLayout: Raumlayout-Rekonstruktion aus Indoor-Sphärischen-Panoramen

Bei der Verarbeitung eines einzelnen RGB-Panoramabildes ist das Ziel der 3D-Layout-Rekonstruktion, die Raumstruktur durch Vorhersage der Ecken, des Bodenrandes und des Deckenrandes zu schätzen. Ein gängiger Ansatz besteht darin, Standard-Faltungsnetze zur Vorhersage von Ecken und Rändern zu verwenden, gefolgt von einem Nachbearbeitungsschritt zur Generierung des 3D-Layouts. Allerdings sind die raumabhängigen Verzerrungen in Panoramabildern nicht mit der translationsinvarianten Eigenschaft von Standardfaltungen vereinbar, was die Leistung beeinträchtigt. Stattdessen schlagen wir die Verwendung sphärischer Faltungen vor. Das resultierende Netzwerk, das wir OmniLayout nennen, führt Faltungen direkt auf der Kugelfläche durch, wobei es nach inverser Äquidistanzprojektion abtastet und daher gegenüber äquidistanzbedingten Verzerrungen invariant ist. Mit Hilfe eines neuen Evaluationsmaßes zeigen wir, dass unser Netzwerk den Fehler in stark verzerrten Bereichen (nahe den Polen) um etwa 25 % reduziert im Vergleich zu Standard-Faltungsnetzen. Experimentelle Ergebnisse belegen, dass OmniLayout bei zwei verschiedenen Benchmark-Datensätzen (PanoContext und Stanford 2D-3D) den Stand der Technik um etwa 4 % übertrifft. Der Quellcode ist unter https://github.com/rshivansh/OmniLayout verfügbar.