Tiefgehende Untersuchung der Generalisierbarkeit selbstüberwachter monokularer Tiefenschätzung

Die selbstüberwachte monokulare Tiefenschätzung ist in letzter Zeit weitgehend untersucht worden. Die meisten Arbeiten konzentrieren sich auf die Verbesserung der Leistung auf Benchmark-Datensätzen wie KITTI, bieten jedoch nur wenige Experimente zur Generalisierungsleistung. In diesem Artikel untersuchen wir die Leistungsfähigkeit von Backbone-Netzwerken (z. B. CNNs, Transformers und hybride CNN-Transformer-Modelle) hinsichtlich der Generalisierung der monokularen Tiefenschätzung. Zunächst bewerten wir state-of-the-art-Modelle anhand vielfältiger öffentlicher Datensätze, die während des Trainings des Netzwerks nie gesehen wurden. Anschließend analysieren wir die Auswirkungen von textur- und formbiasierten Darstellungen mithilfe verschiedener, von uns generierter Textur-verschobener Datensätze. Wir stellen fest, dass Transformers eine starke Form-Bias aufweisen, während CNNs eine starke Textur-Bias zeigen. Zudem beobachten wir, dass formbiasierte Modelle gegenüber texturbiasierten Modellen eine bessere Generalisierungsfähigkeit für die monokulare Tiefenschätzung aufweisen. Aufgrund dieser Beobachtungen entwerfen wir ein neues hybrides CNN-Transformer-Netzwerk mit einem mehrstufigen adaptiven Merkmalsfusion-Modul, das wir MonoFormer nennen. Die Design-Intuition hinter MonoFormer besteht darin, die Form-Bias durch die Nutzung von Transformers zu verstärken, während gleichzeitig die schwache Lokalitäts-Bias von Transformers durch adaptives Fusionsverfahren mehrstufiger Darstellungen kompensiert wird. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode eine state-of-the-art-Leistung auf verschiedenen öffentlichen Datensätzen erzielt und zudem die beste Generalisierungsfähigkeit unter den vergleichbaren Ansätzen aufweist.