HyperAIHyperAI
vor 2 Monaten

Jedes Pixel zählt: Unüberwachtes Geometrielernen mit umfassendem 3D-Bewegungsverstehen

Yang, Zhenheng ; Wang, Peng ; Wang, Yang ; Xu, Wei ; Nevatia, Ram
Jedes Pixel zählt: Unüberwachtes Geometrielernen mit umfassendem 3D-Bewegungsverstehen
Abstract

Das Lernen der Schätzung von 3D-Geometrie in einem einzelnen Bild durch das Betrachten von unbearbeiteten Videos mittels tiefer Faltungsnetze (Deep Convolutional Networks) hat in letzter Zeit erhebliche Fortschritte gemacht. Die aktuellen Stand-of-the-Art-Methoden basieren auf dem Lernrahmen von starrer Struktur aus Bewegung, bei dem nur die 3D-Kamera-Egomotion für die Geometrieschätzung modelliert wird. Allerdings gibt es auch bewegte Objekte in vielen Videos, z.B. fahrende Autos in einer Straßenszene. In dieser Arbeit adressieren wir diese Bewegung, indem wir zusätzlich die 3D-Bewegung pro Pixel in den Lernrahmen integrieren, was ein umfassendes Verständnis des 3D-Szenenflusses ermöglicht und der Geometrieschätzung aus einem einzelnen Bild hilft.Speziell verwenden wir bei zwei aufeinanderfolgenden Bildern eines Videos ein Bewegungsnetzwerk zur Vorhersage ihrer relativen 3D-Kameraposition und eines Segmentierungs-Masken, die bewegte Objekte und starren Hintergrund voneinander trennt. Ein optisches Flussnetzwerk wird angewendet, um eine dichte 2D-Pixelkorrespondenz zu schätzen. Ein Netzwerk zur Tiefenschätzung aus einem einzelnen Bild generiert Tiefenkarten für beide Bilder. Diese vier Informationsarten – 2D-Fluss, Kameraposition, Segmentierungs-Maske und Tiefenkarten – werden in einen differenzierbaren umfassenden 3D-Bewegungsparser (HMP) integriert, wobei die 3D-Bewegung pro Pixel sowohl für den starren Hintergrund als auch für bewegte Objekte rekonstruiert wird.Wir entwerfen verschiedene Verlustfunktionen im Bezug auf die beiden Arten von 3D-Bewegungen zum Training der Tiefen- und Bewegungsnetzwerke, was zu einer weiteren Fehlerreduktion bei der geschätzten Geometrie führt. Schließlich, um die 3D-Bewegungsverwirrung aus monokularen Videos zu lösen, kombinieren wir stereoskopische Bilder in ein gemeinsames Training. Experimente mit dem KITTI 2015-Datensatz zeigen, dass unsere geschätzte Geometrie, 3D-Bewegung und Masken für bewegte Objekte nicht nur konsistent sind, sondern auch andere Stand-of-the-Art-Algorithmen deutlich übertreffen, was die Vorteile unseres Ansatzes unterstreicht.

Jedes Pixel zählt: Unüberwachtes Geometrielernen mit umfassendem 3D-Bewegungsverstehen | Neueste Forschungsarbeiten | HyperAI