MonoViT: Selbstüberwachte monokulare Tiefenschätzung mit einem Vision Transformer

Selbstüberwachte monokulare Tiefenschätzung stellt eine vielversprechende Lösung dar, die keine schwer zu beschaffenden Tiefenlabels für das Training erfordert. Kürzlich haben herkömmliche neuronale Netze mit Faltungen (Convolutional Neural Networks, CNNs) erhebliche Fortschritte auf diesem Gebiet erzielt. Allerdings beschränkt ihre begrenzte Rezeptionsfeldgröße bestehende Netzarchitekturen darauf, lediglich lokal zu inferieren, was die Wirksamkeit des selbstüberwachten Ansatzes einschränkt. Angesichts der jüngsten Erfolge von Vision-Transformern (ViTs) stellen wir MonoViT vor – einen neuartigen Rahmen, der die globale Schlussfolgerungsfähigkeit von ViT-Modellen mit der Flexibilität der selbstüberwachten monokularen Tiefenschätzung verbindet. Durch die Kombination von einfachen Faltungen mit Transformer-Blöcken ermöglicht unser Modell sowohl lokale als auch globale Inferenz, was zu detaillierteren und genaueren Tiefenprognosen führt und MonoViT ermöglicht, eine state-of-the-art-Leistung auf dem etablierten KITTI-Datensatz zu erzielen. Darüber hinaus zeigt MonoViT seine überlegene Generalisierungsfähigkeit auf weiteren Datensätzen wie Make3D und DrivingStereo.