HyperAIHyperAI

Command Palette

Search for a command to run...

MonoViT: Selbstüberwachte monokulare Tiefenschätzung mit einem Vision Transformer

Chaoqiang Zhao Youmin Zhang Matteo Poggi Fabio Tosi Xianda Guo Zheng Zhu Guan Huang Yang Tang Stefano Mattoccia

Zusammenfassung

Selbstüberwachte monokulare Tiefenschätzung stellt eine vielversprechende Lösung dar, die keine schwer zu beschaffenden Tiefenlabels für das Training erfordert. Kürzlich haben herkömmliche neuronale Netze mit Faltungen (Convolutional Neural Networks, CNNs) erhebliche Fortschritte auf diesem Gebiet erzielt. Allerdings beschränkt ihre begrenzte Rezeptionsfeldgröße bestehende Netzarchitekturen darauf, lediglich lokal zu inferieren, was die Wirksamkeit des selbstüberwachten Ansatzes einschränkt. Angesichts der jüngsten Erfolge von Vision-Transformern (ViTs) stellen wir MonoViT vor – einen neuartigen Rahmen, der die globale Schlussfolgerungsfähigkeit von ViT-Modellen mit der Flexibilität der selbstüberwachten monokularen Tiefenschätzung verbindet. Durch die Kombination von einfachen Faltungen mit Transformer-Blöcken ermöglicht unser Modell sowohl lokale als auch globale Inferenz, was zu detaillierteren und genaueren Tiefenprognosen führt und MonoViT ermöglicht, eine state-of-the-art-Leistung auf dem etablierten KITTI-Datensatz zu erzielen. Darüber hinaus zeigt MonoViT seine überlegene Generalisierungsfähigkeit auf weiteren Datensätzen wie Make3D und DrivingStereo.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MonoViT: Selbstüberwachte monokulare Tiefenschätzung mit einem Vision Transformer | Paper | HyperAI