HyperAIHyperAI

Command Palette

Search for a command to run...

RAFT-3D: Szenenfluss mittels starren Bewegungs-Einbettungen

Zachary Teed Jia Deng

Zusammenfassung

Wir behandeln das Problem der Szenenbewegung: Gegeben sind jeweils zwei Stereo- oder RGB-D-Videobilder, und es soll die pixelweise 3D-Bewegung geschätzt werden. Wir stellen RAFT-3D vor, eine neue tiefe Architektur für die Szenenbewegungsschätzung. RAFT-3D basiert auf dem RAFT-Modell, das für die optische Flussberechnung entwickelt wurde, aktualisiert jedoch iterativ einen dichten Feld von pixelweisen SE3-Bewegungen anstelle von 2D-Bewegungen. Ein zentrales Innovationsmerkmal von RAFT-3D sind starre Bewegungseinhüllungen (rigid-motion embeddings), die eine weiche Gruppierung von Pixeln in starre Objekte darstellen. Eine wesentliche Komponente dieser Einhüllungen ist Dense-SE3, eine differenzierbare Schicht, die die geometrische Konsistenz der Einhüllungen gewährleistet. Experimente zeigen, dass RAFT-3D die derzeit beste Leistung erzielt. Auf dem Datensatz FlyingThings3D erreichen wir unter der zwei-Bild-Evaluation eine Genauigkeit (d < 0,05) von 83,7 %, was eine erhebliche Verbesserung gegenüber der besten bisher veröffentlichten Ergebnis (34,3 %) darstellt. Auf KITTI erzielen wir einen Fehler von 5,77 und übertreffen damit die beste veröffentlichte Methode (6,31), obwohl wir keine Objektinstanz-Supervision verwenden. Der Quellcode ist unter https://github.com/princeton-vl/RAFT-3D verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RAFT-3D: Szenenfluss mittels starren Bewegungs-Einbettungen | Paper | HyperAI