Untersuchung der Effizienz von Vision Transformers für selbstüberwachtes monokulares Tiefenschätzen
{Ilya Makarov Aleksei Karpov}
Abstract
Die Schätzung der Tiefe ist eine entscheidende Aufgabe für die Erstellung von Tiefenkarten, einem der wichtigsten Bausteine für erweiterte Realität (AR) und andere Anwendungen. Allerdings verfügt die am häufigsten verwendete Hardware für AR-Geräte und Smartphones lediglich über spärliche Tiefensensoren mit unterschiedlichen Methoden zur Erhebung der Ground-Truth-Tiefe. Daher können Tiefenschätzmodelle, die für nachgeschaltete AR-Aufgaben robust sind, nur zuverlässig mittels selbstüberwachten Lernverfahren auf Basis von Kamerainformationen trainiert werden. Bisherige Arbeiten in diesem Bereich konzentrieren sich hauptsächlich auf selbstüberwachte Modelle mit rein konvolutionellen Architekturen, wobei der globale räumliche Kontext nicht berücksichtigt wird. In diesem Artikel nutzen wir Vision-Transformer-Architekturen für die selbstüberwachte monokulare Tiefenschätzung und stellen VTDepth, ein auf Vision-Transformern basierendes Modell, vor, das eine Lösung für das Problem des globalen räumlichen Kontexts bietet. Wir vergleichen verschiedene Kombinationen aus konvolutionellen und Transformer-Architekturen für die selbstüberwachte Tiefenschätzung und zeigen, dass die beste Modellkombination ein Encoder mit Transformer-Basis und konvolutionaler Dekoder ist. Unsere Experimente belegen die Effizienz von VTDepth für die selbstüberwachte Tiefenschätzung. Unsere Modellreihe erreicht den Stand der Technik bei selbstüberwachtem Lernen auf den Datensätzen NYUv2 und KITTI. Unser Code ist unter https://github.com/ahbpp/VTDepth verfügbar.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| monocular-depth-estimation-on-kitti-eigen-1 | VTDepthB2 (stereo supervision) | Delta u003c 1.25: 0.904 Delta u003c 1.25^2: 0.965 Delta u003c 1.25^3: 0.983 RMSE: 4.439 RMSE log: 0.178 Sq Rel: 0.743 absolute relative error: 0.099 |
| monocular-depth-estimation-on-kitti-eigen-1 | VTDepthB2 (monocular supervision) | Delta u003c 1.25: 0.893 Delta u003c 1.25^2: 0.964 Delta u003c 1.25^3: 0.983 RMSE: 4.530 RMSE log: 0.182 Sq Rel: 0.762 absolute relative error: 0.105 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.