vor 17 Tagen

SPIdepth: Verstärkte Pose-Information für selbstüberwachtes monokulares Tiefenschätzen

Mykola Lavreniuk

Abstract

Selbstüberwachte monokulare Tiefenschätzung hat aufgrund ihrer Anwendungen im autonomen Fahren und der Robotik erhebliche Aufmerksamkeit erfahren. Während neuere Ansätze Fortschritte bei der Nutzung von Techniken wie der Self-Query-Layer-(SQL)-Architektur erzielt haben, um Tiefeninformationen aus Bewegung zu inferieren, vernachlässigen sie oft das Potenzial, die Pose-Information zu stärken. In diesem Artikel stellen wir SPIdepth vor, einen neuartigen Ansatz, der die Verbesserung des Pose-Netzwerks für eine präzisere Tiefenschätzung priorisiert. Aufbauend auf der Grundlage von SQL betont SPIdepth die Bedeutung der Pose-Information für die Erfassung fein strukturierter Szenen. Durch die Verstärkung der Fähigkeiten des Pose-Netzwerks erreicht SPIdepth bemerkenswerte Fortschritte in der Szenenverstehbarkeit und Tiefenschätzung. Experimentelle Ergebnisse auf Benchmark-Datensätzen wie KITTI, Cityscapes und Make3D zeigen, dass SPIdepth die bisherigen State-of-the-Art-Methoden deutlich übertrifft. Insbesondere erreicht SPIdepth die Spitzenposition im selbstüberwachten KITTI-Benchmark. Zudem erzielt SPIdepth die niedrigsten Werte für AbsRel (0,029), SqRel (0,069) und RMSE (1,394) auf KITTI und etabliert damit neue Benchmark-Werte. Auf Cityscapes verbessert SPIdepth SQLdepth um 21,7 % in AbsRel, 36,8 % in SqRel und 16,5 % in RMSE – selbst ohne Verwendung von Bewegungsmasken. Auf Make3D übertrifft SPIdepth in Zero-Shot-Szenarien alle anderen Modelle. Bemerkenswert ist, dass SPIdepth diese Ergebnisse mit lediglich einem einzigen Bild zur Inferenz erzielt, wodurch es sogar Methoden übertrifft, die Video-Sequenzen zur Inferenz nutzen. Dies unterstreicht die Effizienz und Wirksamkeit von SPIdepth in realen Anwendungen. Unser Ansatz stellt einen bedeutenden Fortschritt in der selbstüberwachten monokularen Tiefenschätzung dar und verdeutlicht die entscheidende Rolle der Stärkung der Pose-Information für die Verbesserung des Szenenverstehens in realen Umgebungen. Der Quellcode und vortrainierte Modelle sind öffentlich unter https://github.com/Lavreniuk/SPIdepth verfügbar.