HyperAIHyperAI
vor 11 Tagen

Tiefgehende Untersuchung der Generalisierbarkeit selbstüberwachter monokularer Tiefenschätzung

Jinwoo Bae, Sungho Moon, Sunghoon Im
Tiefgehende Untersuchung der Generalisierbarkeit selbstüberwachter monokularer Tiefenschätzung
Abstract

Die selbstüberwachte monokulare Tiefenschätzung ist in letzter Zeit weitgehend untersucht worden. Die meisten Arbeiten konzentrieren sich auf die Verbesserung der Leistung auf Benchmark-Datensätzen wie KITTI, bieten jedoch nur wenige Experimente zur Generalisierungsleistung. In diesem Artikel untersuchen wir die Leistungsfähigkeit von Backbone-Netzwerken (z. B. CNNs, Transformers und hybride CNN-Transformer-Modelle) hinsichtlich der Generalisierung der monokularen Tiefenschätzung. Zunächst bewerten wir state-of-the-art-Modelle anhand vielfältiger öffentlicher Datensätze, die während des Trainings des Netzwerks nie gesehen wurden. Anschließend analysieren wir die Auswirkungen von textur- und formbiasierten Darstellungen mithilfe verschiedener, von uns generierter Textur-verschobener Datensätze. Wir stellen fest, dass Transformers eine starke Form-Bias aufweisen, während CNNs eine starke Textur-Bias zeigen. Zudem beobachten wir, dass formbiasierte Modelle gegenüber texturbiasierten Modellen eine bessere Generalisierungsfähigkeit für die monokulare Tiefenschätzung aufweisen. Aufgrund dieser Beobachtungen entwerfen wir ein neues hybrides CNN-Transformer-Netzwerk mit einem mehrstufigen adaptiven Merkmalsfusion-Modul, das wir MonoFormer nennen. Die Design-Intuition hinter MonoFormer besteht darin, die Form-Bias durch die Nutzung von Transformers zu verstärken, während gleichzeitig die schwache Lokalitäts-Bias von Transformers durch adaptives Fusionsverfahren mehrstufiger Darstellungen kompensiert wird. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode eine state-of-the-art-Leistung auf verschiedenen öffentlichen Datensätzen erzielt und zudem die beste Generalisierungsfähigkeit unter den vergleichbaren Ansätzen aufweist.

Tiefgehende Untersuchung der Generalisierbarkeit selbstüberwachter monokularer Tiefenschätzung | Neueste Forschungsarbeiten | HyperAI