Recurrente neuronale Netzwerke für (un-)überwachtes Lernen von monokularer Video-Visual-Odometrie und Tiefenschätzung
{ Jan-Michael Frahm Stephen M. Pizer Rui Wang}

Abstract
Basiert auf Deep Learning stehende Methoden zur Tiefenschätzung aus einer einzigen Ansicht haben in letzter Zeit äußerst vielversprechende Ergebnisse erzielt. Allerdings ignorieren solche Ansätze eine der wichtigsten Eigenschaften für die Tiefenwahrnehmung im menschlichen Sehsystem, nämlich Bewegung. Wir stellen eine lernbasierte Methode zur Schätzung dichter Tiefenkarten und der Visuallage (Odometrie) aus mehreren Ansichten vor, die rekurrente neuronale Netze (RNN) nutzt und mittels Multi-View-Bildreprojektion sowie Forward-Backward-Fluss-Konsistenzverluste trainiert wird. Unser Modell kann sowohl im überwachten als auch im unüberwachten Modus trainiert werden. Es ist speziell für die Tiefen- und Visuallage-Schätzung aus Videos konzipiert, bei denen die Eingabebilder zeitlich korreliert sind. Dennoch verallgemeinert sich die Methode auch auf die Schätzung aus einer einzigen Ansicht. Unser Ansatz erreicht auf dem KITTI-Datensatz für autonome Fahrzeugforschung Ergebnisse, die die der derzeit besten Ansätze für lernbasierte Tiefenschätzung – sowohl für Einzelansicht als auch Mehransicht – übertreffen.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| monocular-depth-estimation-on-mid-air-dataset | Wang | Abs Rel: 0.2410 RMSE: 12.599 RMSE log: 0.3618 SQ Rel: 5.5321 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.