HyperAIHyperAI
vor 11 Tagen

MiDaS v3.1 – Ein Model Zoo für robuste monokulare relative Tiefenschätzung

Reiner Birkl, Diana Wofk, Matthias Müller
MiDaS v3.1 – Ein Model Zoo für robuste monokulare relative Tiefenschätzung
Abstract

Wir veröffentlichen MiDaS v3.1 für die monokulare Tiefenschätzung und stellen eine Vielzahl neuer Modelle vor, die auf unterschiedlichen Encoder-Backbones basieren. Diese Veröffentlichung wird durch den Erfolg von Transformers in der Computer Vision motiviert, bei dem mittlerweile eine große Anzahl vortrainierter Vision Transformers zur Verfügung steht. Wir untersuchen, wie sich die Verwendung der vielversprechendsten Vision Transformers als Bilddencoder auf die Qualität der Tiefenschätzung und die Laufzeit der MiDaS-Architektur auswirkt. Unser Fokus umfasst zudem kürzlich vorgestellte konvolutionale Ansätze, die in Aufgaben der Bildklassifikation vergleichbare Leistung wie Vision Transformers erzielen. Während die vorherige Version MiDaS v3.0 ausschließlich den ursprünglichen Vision Transformer (ViT) nutzte, bietet MiDaS v3.1 nun zusätzliche Modelle auf Basis von BEiT, Swin, SwinV2, Next-ViT und LeViT. Diese Modelle bieten unterschiedliche Abwägungen zwischen Leistung und Laufzeit. Das beste Modell verbessert die Genauigkeit der Tiefenschätzung um 28 %, während effiziente Varianten Anwendungen mit hohen Bildraten ermöglichen. Zudem beschreiben wir den allgemeinen Prozess zur Integration neuer Backbones. Ein Video, das die Arbeit zusammenfasst, ist unter https://youtu.be/UjaeNNFf9sE verfügbar, und der Quellcode ist auf https://github.com/isl-org/MiDaS zugänglich.

MiDaS v3.1 – Ein Model Zoo für robuste monokulare relative Tiefenschätzung | Neueste Forschungsarbeiten | HyperAI