HyperAIHyperAI
vor 13 Tagen

Zur Verbesserung der Generalisierbarkeit: Gemeinsames Lernen von Tiefe und Pose ohne PoseNet

Wang Zhao, Shaohui Liu, Yezhi Shu, Yong-Jin Liu
Zur Verbesserung der Generalisierbarkeit: Gemeinsames Lernen von Tiefe und Pose ohne PoseNet
Abstract

In dieser Arbeit behandeln wir das zentrale Problem der Skaleninkonsistenz bei selbstüberwachten Methoden zur gemeinsamen Schätzung von Tiefen und Pose. Die meisten bestehenden Ansätze gehen davon aus, dass eine konsistente Skala für Tiefen- und Pose-Schätzung über alle Eingabedaten hinweg erlernt werden kann, was das Lernproblem erschwert und zu einer Leistungseinbuße sowie eingeschränkter Generalisierbarkeit – insbesondere in indoor-Umgebungen und bei langen Sequenzen im Bereich der visuellen Odometrie – führt. Um dieses Problem anzugehen, schlagen wir ein neuartiges System vor, das die Skala explizit von der Netzwerk-Schätzung entkoppelt. Anstelle der herkömmlichen PoseNet-Architektur schätzen wir die relative Pose direkt durch Lösung der Fundamentalmatrix aus dichten optischen Flüssen und nutzen ein zweibildbasiertes Triangulationsmodul zur Rekonstruktion einer bis auf eine Skalierung unbestimmten 3D-Struktur. Anschließend alignen wir die Skala der Tiefenschätzung mit dem triangulierten Punktewolke und verwenden die transformierte Tiefenkarte zur Berechnung des Tiefenfehlers sowie zur dichten Reprojektionsüberprüfung. Unser gesamtes System kann end-to-end gemeinsam trainiert werden. Umfangreiche Experimente zeigen, dass unser Ansatz nicht nur state-of-the-art-Leistung auf KITTI für Tiefen- und Fluss-Schätzung erzielt, sondern auch die Generalisierbarkeit bestehender selbstüberwachter Tiefen-Pose-Lernmethoden unter einer Vielzahl herausfordernder Szenarien erheblich verbessert und auf den KITTI Odometry- und NYUv2-Datensätzen die besten Ergebnisse unter allen selbstüberwachten Lernansätzen erreicht. Darüber hinaus präsentieren wir einige interessante Erkenntnisse über die Grenzen von PoseNet-basierten Methoden zur Schätzung relativer Pose hinsichtlich ihrer Generalisierungsfähigkeit. Der Quellcode ist unter https://github.com/B1ueber2y/TrianFlow verfügbar.

Zur Verbesserung der Generalisierbarkeit: Gemeinsames Lernen von Tiefe und Pose ohne PoseNet | Neueste Forschungsarbeiten | HyperAI