FreDSNet: Gemeinsame monokulare Tiefenschätzung und semantische Segmentierung mit schnellen Fourier-Faltung

In dieser Arbeit präsentieren wir FreDSNet, eine Deep-Learning-Lösung, die eine semantische 3D-Verständnis von Innenräumen aus einzelnen Panoramen ermöglicht. Omnidirektionale Bilder bieten aufgrund der 360-Grad-umfassenden kontextuellen Information über die gesamte Umgebung bestimmte vorteilhafte Eigenschaften für die Lösung von Szenenverständnis-Aufgaben. Allerdings führen die inhärenten Eigenschaften omnidirektionaler Bilder zu zusätzlichen Herausforderungen bei der genauen Objektdetektion und -segmentierung sowie bei der präzisen Tiefenschätzung. Um diese Probleme zu überwinden, nutzen wir Faltungen im Frequenzbereich, um in jeder konvolutionalen Schicht einen größeren Rezeptionsfeldbereich zu erreichen. Diese Faltungen ermöglichen es, die gesamte Kontextinformation aus omnidirektionalen Bildern effektiv zu nutzen. FreDSNet ist das erste Netzwerk, das monokulare Tiefenschätzung und semantische Segmentierung aus einer einzigen panoramischen Aufnahme mittels schneller Fourier-Faltungen gemeinsam bereitstellt. Unsere Experimente zeigen, dass FreDSNet eine vergleichbare Leistung wie spezifische State-of-the-Art-Methoden für semantische Segmentierung und Tiefenschätzung erzielt. Der Quellcode von FreDSNet ist öffentlich unter https://github.com/Sbrunoberenguel/FreDSNet verfügbar.