HyperAIHyperAI
vor 2 Monaten

3D-LFM: Lifting Foundation Model 3D-LFM: Modell zur Erhebung der Grundlage

Dabhi, Mosam ; Jeni, Laszlo A. ; Lucey, Simon
3D-LFM: Lifting Foundation Model
3D-LFM: Modell zur Erhebung der Grundlage
Abstract

Die Rekonstruktion der 3D-Struktur und der Kamera aus 2D-Landmarken bildet die Grundlage des gesamten Fachgebiets der Computer Vision. Traditionelle Methoden waren auf spezifische starre Objekte beschränkt, wie zum Beispiel bei Problemen des Perspektive-n-Punkt (PnP), aber Deep Learning hat unsere Fähigkeit erweitert, eine Vielzahl von Objektklassen (z.B. C3DPO und PAUL) zu rekonstruieren, wobei es robust gegenüber Rauschen, Verdeckungen und perspektivischen Verzerrungen ist. All diese Techniken wurden jedoch durch die grundlegende Notwendigkeit eingeschränkt, Korrespondenzen über die 3D-Trainingsdaten herzustellen – was ihre Nützlichkeit für Anwendungen erheblich einschränkt, in denen eine Fülle von „nicht-korrespondierenden“ 3D-Daten vorliegt. Unser Ansatz nutzt die inhärente Permutationsäquivarianz von Transformatoren, um eine variable Anzahl von Punkten pro 3D-Datensatz zu verwalten, Verdeckungen zu bewältigen und auf unbekannte Kategorien zu generalisieren. Wir zeigen außergewöhnliche Leistungen in den Benchmarks für Aufgaben der 2D-3D-Rekonstruktion. Da unser Ansatz über eine solch breite Klasse von Strukturen trainiert werden kann, bezeichnen wir ihn einfach als ein 3D-Rekonstruktions-Grundmodell (3D-LFM) – das erste seiner Art.