HyperAIHyperAI
vor 11 Tagen

MonoViT: Selbstüberwachte monokulare Tiefenschätzung mit einem Vision Transformer

Chaoqiang Zhao, Youmin Zhang, Matteo Poggi, Fabio Tosi, Xianda Guo, Zheng Zhu, Guan Huang, Yang Tang, Stefano Mattoccia
MonoViT: Selbstüberwachte monokulare Tiefenschätzung mit einem Vision Transformer
Abstract

Selbstüberwachte monokulare Tiefenschätzung stellt eine vielversprechende Lösung dar, die keine schwer zu beschaffenden Tiefenlabels für das Training erfordert. Kürzlich haben herkömmliche neuronale Netze mit Faltungen (Convolutional Neural Networks, CNNs) erhebliche Fortschritte auf diesem Gebiet erzielt. Allerdings beschränkt ihre begrenzte Rezeptionsfeldgröße bestehende Netzarchitekturen darauf, lediglich lokal zu inferieren, was die Wirksamkeit des selbstüberwachten Ansatzes einschränkt. Angesichts der jüngsten Erfolge von Vision-Transformern (ViTs) stellen wir MonoViT vor – einen neuartigen Rahmen, der die globale Schlussfolgerungsfähigkeit von ViT-Modellen mit der Flexibilität der selbstüberwachten monokularen Tiefenschätzung verbindet. Durch die Kombination von einfachen Faltungen mit Transformer-Blöcken ermöglicht unser Modell sowohl lokale als auch globale Inferenz, was zu detaillierteren und genaueren Tiefenprognosen führt und MonoViT ermöglicht, eine state-of-the-art-Leistung auf dem etablierten KITTI-Datensatz zu erzielen. Darüber hinaus zeigt MonoViT seine überlegene Generalisierungsfähigkeit auf weiteren Datensätzen wie Make3D und DrivingStereo.

MonoViT: Selbstüberwachte monokulare Tiefenschätzung mit einem Vision Transformer | Neueste Forschungsarbeiten | HyperAI