HyperAIHyperAI
vor 11 Tagen

RAFT-3D: Szenenfluss mittels starren Bewegungs-Einbettungen

Zachary Teed, Jia Deng
RAFT-3D: Szenenfluss mittels starren Bewegungs-Einbettungen
Abstract

Wir behandeln das Problem der Szenenbewegung: Gegeben sind jeweils zwei Stereo- oder RGB-D-Videobilder, und es soll die pixelweise 3D-Bewegung geschätzt werden. Wir stellen RAFT-3D vor, eine neue tiefe Architektur für die Szenenbewegungsschätzung. RAFT-3D basiert auf dem RAFT-Modell, das für die optische Flussberechnung entwickelt wurde, aktualisiert jedoch iterativ einen dichten Feld von pixelweisen SE3-Bewegungen anstelle von 2D-Bewegungen. Ein zentrales Innovationsmerkmal von RAFT-3D sind starre Bewegungseinhüllungen (rigid-motion embeddings), die eine weiche Gruppierung von Pixeln in starre Objekte darstellen. Eine wesentliche Komponente dieser Einhüllungen ist Dense-SE3, eine differenzierbare Schicht, die die geometrische Konsistenz der Einhüllungen gewährleistet. Experimente zeigen, dass RAFT-3D die derzeit beste Leistung erzielt. Auf dem Datensatz FlyingThings3D erreichen wir unter der zwei-Bild-Evaluation eine Genauigkeit (d < 0,05) von 83,7 %, was eine erhebliche Verbesserung gegenüber der besten bisher veröffentlichten Ergebnis (34,3 %) darstellt. Auf KITTI erzielen wir einen Fehler von 5,77 und übertreffen damit die beste veröffentlichte Methode (6,31), obwohl wir keine Objektinstanz-Supervision verwenden. Der Quellcode ist unter https://github.com/princeton-vl/RAFT-3D verfügbar.

RAFT-3D: Szenenfluss mittels starren Bewegungs-Einbettungen | Neueste Forschungsarbeiten | HyperAI