HyperAIHyperAI
vor 2 Monaten

Unüberwachtes skalenkonsistentes Tiefen- und Ego-Bewegungslernen aus monokularen Videos

Bian, Jia-Wang ; Li, Zhichao ; Wang, Naiyan ; Zhan, Huangying ; Shen, Chunhua ; Cheng, Ming-Ming ; Reid, Ian
Unüberwachtes skalenkonsistentes Tiefen- und Ego-Bewegungslernen aus monokularen Videos
Abstract

Neuere Arbeiten haben gezeigt, dass Tiefenschätzer und Ego-Bewegungsschätzer auf Basis von CNNs (Convolutional Neural Networks) mithilfe unmarkierter monokularer Videos gelernt werden können. Allerdings wird die Leistung durch unbekannte bewegte Objekte begrenzt, die die zugrunde liegende Annahme einer statischen Szene in der geometrischen Bildrekonstruktion verletzen. Signifikanter ist jedoch, dass aufgrund fehlender angemessener Restriktionen die Netze über verschiedene Proben skaleninkonsistente Ergebnisse liefern, d.h., das Ego-Bewegungsnetz kann aufgrund der skalaren Unbestimmtheit pro Frame keine vollständigen Kameraspurkurven über eine lange Videosequenz bereitstellen. In dieser Arbeit werden diese Herausforderungen angegangen, indem ein Verlust für geometrische Konsistenz zur Erzeugung skalenkonsistenter Vorhersagen und eine induzierte selbstentdeckte Maske zur Behandlung bewegter Objekte und Okklusionen vorgeschlagen wird. Da wir im Gegensatz zu jüngsten Arbeiten nicht auf Multi-Task-Lernen zurückgreifen, ist unser Framework viel einfacher und effizienter. Ausführliche Evaluationsergebnisse zeigen, dass unser Tiefenschätzer den Stand der Technik auf dem KITTI-Datensatz erreicht. Darüber hinaus demonstrieren wir, dass unser Ego-Bewegungsnetz in der Lage ist, eine global skalenkonsistente Kameraspurkurve für lange Videosequenzen vorherzusagen, wobei die Genauigkeit des visuellen Odometrieergebnisses mit jüngsten Modellen konkurrieren kann, die mit stereo-Videos trainiert wurden. Nach bestem Wissen ist dies die erste Arbeit, die zeigt, dass tiefenschichtbasierte Netze, die mit unmarkierten monokularen Videos trainiert wurden, globale skalenkonsistente Kameraspurkurven über lange Videosequenzen vorhersagen können.

Unüberwachtes skalenkonsistentes Tiefen- und Ego-Bewegungslernen aus monokularen Videos | Neueste Forschungsarbeiten | HyperAI