HyperAIHyperAI
vor 16 Tagen

Recurrente neuronale Netzwerke für (un-)überwachtes Lernen von monokularer Video-Visual-Odometrie und Tiefenschätzung

{ Jan-Michael Frahm, Stephen M. Pizer, Rui Wang}
Recurrente neuronale Netzwerke für (un-)überwachtes Lernen von monokularer Video-Visual-Odometrie und Tiefenschätzung
Abstract

Basiert auf Deep Learning stehende Methoden zur Tiefenschätzung aus einer einzigen Ansicht haben in letzter Zeit äußerst vielversprechende Ergebnisse erzielt. Allerdings ignorieren solche Ansätze eine der wichtigsten Eigenschaften für die Tiefenwahrnehmung im menschlichen Sehsystem, nämlich Bewegung. Wir stellen eine lernbasierte Methode zur Schätzung dichter Tiefenkarten und der Visuallage (Odometrie) aus mehreren Ansichten vor, die rekurrente neuronale Netze (RNN) nutzt und mittels Multi-View-Bildreprojektion sowie Forward-Backward-Fluss-Konsistenzverluste trainiert wird. Unser Modell kann sowohl im überwachten als auch im unüberwachten Modus trainiert werden. Es ist speziell für die Tiefen- und Visuallage-Schätzung aus Videos konzipiert, bei denen die Eingabebilder zeitlich korreliert sind. Dennoch verallgemeinert sich die Methode auch auf die Schätzung aus einer einzigen Ansicht. Unser Ansatz erreicht auf dem KITTI-Datensatz für autonome Fahrzeugforschung Ergebnisse, die die der derzeit besten Ansätze für lernbasierte Tiefenschätzung – sowohl für Einzelansicht als auch Mehransicht – übertreffen.