HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Untersuchung der Effizienz von Vision Transformers für selbstüberwachtes monokulares Tiefenschätzen

{Ilya Makarov Aleksei Karpov}

Abstract

Die Schätzung der Tiefe ist eine entscheidende Aufgabe für die Erstellung von Tiefenkarten, einem der wichtigsten Bausteine für erweiterte Realität (AR) und andere Anwendungen. Allerdings verfügt die am häufigsten verwendete Hardware für AR-Geräte und Smartphones lediglich über spärliche Tiefensensoren mit unterschiedlichen Methoden zur Erhebung der Ground-Truth-Tiefe. Daher können Tiefenschätzmodelle, die für nachgeschaltete AR-Aufgaben robust sind, nur zuverlässig mittels selbstüberwachten Lernverfahren auf Basis von Kamerainformationen trainiert werden. Bisherige Arbeiten in diesem Bereich konzentrieren sich hauptsächlich auf selbstüberwachte Modelle mit rein konvolutionellen Architekturen, wobei der globale räumliche Kontext nicht berücksichtigt wird. In diesem Artikel nutzen wir Vision-Transformer-Architekturen für die selbstüberwachte monokulare Tiefenschätzung und stellen VTDepth, ein auf Vision-Transformern basierendes Modell, vor, das eine Lösung für das Problem des globalen räumlichen Kontexts bietet. Wir vergleichen verschiedene Kombinationen aus konvolutionellen und Transformer-Architekturen für die selbstüberwachte Tiefenschätzung und zeigen, dass die beste Modellkombination ein Encoder mit Transformer-Basis und konvolutionaler Dekoder ist. Unsere Experimente belegen die Effizienz von VTDepth für die selbstüberwachte Tiefenschätzung. Unsere Modellreihe erreicht den Stand der Technik bei selbstüberwachtem Lernen auf den Datensätzen NYUv2 und KITTI. Unser Code ist unter https://github.com/ahbpp/VTDepth verfügbar.

Benchmarks

BenchmarkMethodikMetriken
monocular-depth-estimation-on-kitti-eigen-1VTDepthB2 (stereo supervision)
Delta u003c 1.25: 0.904
Delta u003c 1.25^2: 0.965
Delta u003c 1.25^3: 0.983
RMSE: 4.439
RMSE log: 0.178
Sq Rel: 0.743
absolute relative error: 0.099
monocular-depth-estimation-on-kitti-eigen-1VTDepthB2 (monocular supervision)
Delta u003c 1.25: 0.893
Delta u003c 1.25^2: 0.964
Delta u003c 1.25^3: 0.983
RMSE: 4.530
RMSE log: 0.182
Sq Rel: 0.762
absolute relative error: 0.105

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Untersuchung der Effizienz von Vision Transformers für selbstüberwachtes monokulares Tiefenschätzen | Forschungsarbeiten | HyperAI