UniK3D: Universal Camera Monocular 3D Estimation

Die monokulare 3D-Schätzung ist entscheidend für die visuelle Wahrnehmung. Derzeitige Methoden leiden jedoch unter vereinfachten Annahmen, wie beispielsweise der Verwendung von Lochkamera-Modellen oder rektifizierten Bildern. Diese Einschränkungen beschränken ihre allgemeine Anwendbarkeit erheblich und führen zu einer schlechten Leistung in realen Szenarien mit Fisheye- oder Panoramabildern, was zu erheblichem Kontextverlust führt. Um dies zu lösen, präsentieren wir UniK3D, die erste verallgemeinerungsfähige Methode für die monokulare 3D-Schätzung, die jedes Kameramodell modellieren kann. Unser Ansatz führt eine sphärische 3D-Darstellung ein, die eine bessere Entkoppelung von Kamera- und Szenengeometrie ermöglicht und präzise metrische 3D-Rekonstruktionen auch für beliebige, nicht eingeschränkte Kameramodelle erlaubt. Der Kamerakomponente liegt eine neuartige, modellunabhängige Darstellung des Strahlenbündels zugrunde, die durch eine gelernte Überlagerung sphärischer Harmonischer erreicht wird. Zudem führen wir eine winkelbasierte Verlustfunktion ein, die zusammen mit der Architektur des Kameramoduls die Kontraktion der 3D-Ausgaben bei weiten Blickfeldkameras verhindert. Eine umfassende Zero-Shot-Evaluation auf 13 unterschiedlichen Datensätzen zeigt die state-of-the-art-Leistung von UniK3D in Bezug auf 3D-, Tiefen- und Kamerametriken, wobei signifikante Verbesserungen in anspruchsvollen Szenarien mit großem Gesichtsfeld und Panoramabildern erzielt werden, während gleichzeitig die höchste Genauigkeit in klassischen Lochkamera-Szenarien mit kleinem Gesichtsfeld beibehalten wird. Der Quellcode und die Modelle sind unter github.com/lpiccinelli-eth/unik3d verfügbar.