HyperAIHyperAI

Command Palette

Search for a command to run...

Jedes Pixel zählt: Unüberwachtes Geometrielernen mit umfassendem 3D-Bewegungsverstehen

Zhenheng Yang Peng Wang Yang Wang Wei Xu Ram Nevatia

Zusammenfassung

Das Lernen der Schätzung von 3D-Geometrie in einem einzelnen Bild durch das Betrachten von unbearbeiteten Videos mittels tiefer Faltungsnetze (Deep Convolutional Networks) hat in letzter Zeit erhebliche Fortschritte gemacht. Die aktuellen Stand-of-the-Art-Methoden basieren auf dem Lernrahmen von starrer Struktur aus Bewegung, bei dem nur die 3D-Kamera-Egomotion für die Geometrieschätzung modelliert wird. Allerdings gibt es auch bewegte Objekte in vielen Videos, z.B. fahrende Autos in einer Straßenszene. In dieser Arbeit adressieren wir diese Bewegung, indem wir zusätzlich die 3D-Bewegung pro Pixel in den Lernrahmen integrieren, was ein umfassendes Verständnis des 3D-Szenenflusses ermöglicht und der Geometrieschätzung aus einem einzelnen Bild hilft.Speziell verwenden wir bei zwei aufeinanderfolgenden Bildern eines Videos ein Bewegungsnetzwerk zur Vorhersage ihrer relativen 3D-Kameraposition und eines Segmentierungs-Masken, die bewegte Objekte und starren Hintergrund voneinander trennt. Ein optisches Flussnetzwerk wird angewendet, um eine dichte 2D-Pixelkorrespondenz zu schätzen. Ein Netzwerk zur Tiefenschätzung aus einem einzelnen Bild generiert Tiefenkarten für beide Bilder. Diese vier Informationsarten – 2D-Fluss, Kameraposition, Segmentierungs-Maske und Tiefenkarten – werden in einen differenzierbaren umfassenden 3D-Bewegungsparser (HMP) integriert, wobei die 3D-Bewegung pro Pixel sowohl für den starren Hintergrund als auch für bewegte Objekte rekonstruiert wird.Wir entwerfen verschiedene Verlustfunktionen im Bezug auf die beiden Arten von 3D-Bewegungen zum Training der Tiefen- und Bewegungsnetzwerke, was zu einer weiteren Fehlerreduktion bei der geschätzten Geometrie führt. Schließlich, um die 3D-Bewegungsverwirrung aus monokularen Videos zu lösen, kombinieren wir stereoskopische Bilder in ein gemeinsames Training. Experimente mit dem KITTI 2015-Datensatz zeigen, dass unsere geschätzte Geometrie, 3D-Bewegung und Masken für bewegte Objekte nicht nur konsistent sind, sondern auch andere Stand-of-the-Art-Algorithmen deutlich übertreffen, was die Vorteile unseres Ansatzes unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp