HyperAI
vor 12 Tagen

π^3: Skalierbares permutationsäquivalentes visuelles Geometrielernen

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
π^3: Skalierbares permutationsäquivalentes visuelles Geometrielernen
Abstract

Wir stellen pi³ vor, ein feed-forward Neuronales Netzwerk, das einen neuen Ansatz für die visuelle Geometrierestruktion bietet und die Abhängigkeit von einer konventionellen festen Referenzansicht beseitigt. Vorherige Methoden verankern ihre Rekonstruktionen oft an einem bestimmten Beobachtungspunkt, eine induktive Verzerrung, die zu Instabilität und Fehlern führen kann, wenn der Referenzpunkt suboptimal ist. Im Gegensatz dazu verwendet pi³ eine vollständig permutationsäquivalente Architektur, um affin-invariante Kamerapositionen und skaleninvariante lokale Punktkarten ohne jegliche Referenzrahmen vorherzusagen. Diese Gestaltung macht unser Modell inhärent robust gegenüber der Eingabeordnung und hoch skalierbar. Diese Vorteile ermöglichen es unserem einfachen und verzerrungsfreien Ansatz, den Stand der Technik in einer Vielzahl von Aufgaben zu erreichen, darunter die Schätzung von Kamerapositionen, die Tiefenschätzung aus mono- oder Videokameras sowie die dichte Rekonstruktion von Punktkarten. Der Quellcode und die Modelle sind öffentlich verfügbar.