Command Palette
Search for a command to run...
Untersuchung der Effizienz von Vision Transformers für selbstüberwachtes monokulares Tiefenschätzen
Untersuchung der Effizienz von Vision Transformers für selbstüberwachtes monokulares Tiefenschätzen
Ilya Makarov Aleksei Karpov
Zusammenfassung
Die Schätzung der Tiefe ist eine entscheidende Aufgabe für die Erstellung von Tiefenkarten, einem der wichtigsten Bausteine für erweiterte Realität (AR) und andere Anwendungen. Allerdings verfügt die am häufigsten verwendete Hardware für AR-Geräte und Smartphones lediglich über spärliche Tiefensensoren mit unterschiedlichen Methoden zur Erhebung der Ground-Truth-Tiefe. Daher können Tiefenschätzmodelle, die für nachgeschaltete AR-Aufgaben robust sind, nur zuverlässig mittels selbstüberwachten Lernverfahren auf Basis von Kamerainformationen trainiert werden. Bisherige Arbeiten in diesem Bereich konzentrieren sich hauptsächlich auf selbstüberwachte Modelle mit rein konvolutionellen Architekturen, wobei der globale räumliche Kontext nicht berücksichtigt wird. In diesem Artikel nutzen wir Vision-Transformer-Architekturen für die selbstüberwachte monokulare Tiefenschätzung und stellen VTDepth, ein auf Vision-Transformern basierendes Modell, vor, das eine Lösung für das Problem des globalen räumlichen Kontexts bietet. Wir vergleichen verschiedene Kombinationen aus konvolutionellen und Transformer-Architekturen für die selbstüberwachte Tiefenschätzung und zeigen, dass die beste Modellkombination ein Encoder mit Transformer-Basis und konvolutionaler Dekoder ist. Unsere Experimente belegen die Effizienz von VTDepth für die selbstüberwachte Tiefenschätzung. Unsere Modellreihe erreicht den Stand der Technik bei selbstüberwachtem Lernen auf den Datensätzen NYUv2 und KITTI. Unser Code ist unter https://github.com/ahbpp/VTDepth verfügbar.