HyperAIHyperAI

Command Palette

Search for a command to run...

Zur Verbesserung der Generalisierbarkeit: Gemeinsames Lernen von Tiefe und Pose ohne PoseNet

Wang Zhao Shaohui Liu Yezhi Shu Yong-Jin Liu

Zusammenfassung

In dieser Arbeit behandeln wir das zentrale Problem der Skaleninkonsistenz bei selbstüberwachten Methoden zur gemeinsamen Schätzung von Tiefen und Pose. Die meisten bestehenden Ansätze gehen davon aus, dass eine konsistente Skala für Tiefen- und Pose-Schätzung über alle Eingabedaten hinweg erlernt werden kann, was das Lernproblem erschwert und zu einer Leistungseinbuße sowie eingeschränkter Generalisierbarkeit – insbesondere in indoor-Umgebungen und bei langen Sequenzen im Bereich der visuellen Odometrie – führt. Um dieses Problem anzugehen, schlagen wir ein neuartiges System vor, das die Skala explizit von der Netzwerk-Schätzung entkoppelt. Anstelle der herkömmlichen PoseNet-Architektur schätzen wir die relative Pose direkt durch Lösung der Fundamentalmatrix aus dichten optischen Flüssen und nutzen ein zweibildbasiertes Triangulationsmodul zur Rekonstruktion einer bis auf eine Skalierung unbestimmten 3D-Struktur. Anschließend alignen wir die Skala der Tiefenschätzung mit dem triangulierten Punktewolke und verwenden die transformierte Tiefenkarte zur Berechnung des Tiefenfehlers sowie zur dichten Reprojektionsüberprüfung. Unser gesamtes System kann end-to-end gemeinsam trainiert werden. Umfangreiche Experimente zeigen, dass unser Ansatz nicht nur state-of-the-art-Leistung auf KITTI für Tiefen- und Fluss-Schätzung erzielt, sondern auch die Generalisierbarkeit bestehender selbstüberwachter Tiefen-Pose-Lernmethoden unter einer Vielzahl herausfordernder Szenarien erheblich verbessert und auf den KITTI Odometry- und NYUv2-Datensätzen die besten Ergebnisse unter allen selbstüberwachten Lernansätzen erreicht. Darüber hinaus präsentieren wir einige interessante Erkenntnisse über die Grenzen von PoseNet-basierten Methoden zur Schätzung relativer Pose hinsichtlich ihrer Generalisierungsfähigkeit. Der Quellcode ist unter https://github.com/B1ueber2y/TrianFlow verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp