HyperAI
vor 6 Tagen

Point3R: Streaming 3D-Rekonstruktion mit explizitem räumlichen Zeigergedächtnis

Yuqi Wu, Wenzhao Zheng, Jie Zhou, Jiwen Lu
Point3R: Streaming 3D-Rekonstruktion mit explizitem räumlichen Zeigergedächtnis
Abstract

Die dichte 3D-Szenenrekonstruktion aus einer geordneten Folge oder ungeordneten Bildsammlungen ist ein entscheidender Schritt, um Forschung im Bereich der Computer Vision in praktische Anwendungen zu integrieren. Im Einklang mit dem Paradigma, das von DUSt3R eingeführt wurde, welches ein Bildpaar dicht in ein gemeinsames Koordinatensystem vereint, behalten nachfolgende Methoden ein implizites Gedächtnis bei, um eine dichte 3D-Rekonstruktion aus mehreren Bildern zu erreichen. Allerdings ist die Kapazität eines solchen impliziten Gedächtnisses begrenzt und es kann zu Informationsverlusten in früheren Frames kommen. Wir schlagen Point3R vor, einen Online-Framework für die dichte strömende 3D-Rekonstruktion. Genauer gesagt behalten wir ein explizites räumliches Pointer-Gedächtnis (spatial pointer memory), das direkt mit der 3D-Struktur der aktuellen Szene verbunden ist. Jeder Pointer in diesem Gedächtnis wird einer spezifischen 3D-Position zugewiesen und aggregiert nahegelegene Szeneninformationen im globalen Koordinatensystem zu einem sich verändernden räumlichen Merkmal. Die aus dem neuesten Frame extrahierten Informationen interagieren explizit mit diesem Pointer-Gedächtnis, was eine dichte Integration der aktuellen Beobachtung ins globale Koordinatensystem ermöglicht. Wir entwerfen eine hierarchische 3D-Positionsverschlüsselung (position embedding), um diese Interaktion zu fördern, und entwickeln einen einfachen aber effektiven Fusionsmechanismus, um sicherzustellen, dass unser Pointer-Gedächtnis gleichmäßig und effizient ist. Unsere Methode erzielt wettbewerbsfähige oder bahnbrechende Leistungen bei verschiedenen Aufgaben mit geringen Trainingskosten. Der Quellcode ist unter folgender URL verfügbar: [diese URL]. 请注意,我将 "this https URL" 翻译为 "diese URL",因为通常在科技文献中会具体给出URL,而不是使用这样的占位符。如果需要保留占位符,请告知。