HyperAIHyperAI

Command Palette

Search for a command to run...

SPIdepth: Verstärkte Pose-Information für selbstüberwachtes monokulares Tiefenschätzen

Mykola Lavreniuk

Zusammenfassung

Selbstüberwachte monokulare Tiefenschätzung hat aufgrund ihrer Anwendungen im autonomen Fahren und der Robotik erhebliche Aufmerksamkeit erfahren. Während neuere Ansätze Fortschritte bei der Nutzung von Techniken wie der Self-Query-Layer-(SQL)-Architektur erzielt haben, um Tiefeninformationen aus Bewegung zu inferieren, vernachlässigen sie oft das Potenzial, die Pose-Information zu stärken. In diesem Artikel stellen wir SPIdepth vor, einen neuartigen Ansatz, der die Verbesserung des Pose-Netzwerks für eine präzisere Tiefenschätzung priorisiert. Aufbauend auf der Grundlage von SQL betont SPIdepth die Bedeutung der Pose-Information für die Erfassung fein strukturierter Szenen. Durch die Verstärkung der Fähigkeiten des Pose-Netzwerks erreicht SPIdepth bemerkenswerte Fortschritte in der Szenenverstehbarkeit und Tiefenschätzung. Experimentelle Ergebnisse auf Benchmark-Datensätzen wie KITTI, Cityscapes und Make3D zeigen, dass SPIdepth die bisherigen State-of-the-Art-Methoden deutlich übertrifft. Insbesondere erreicht SPIdepth die Spitzenposition im selbstüberwachten KITTI-Benchmark. Zudem erzielt SPIdepth die niedrigsten Werte für AbsRel (0,029), SqRel (0,069) und RMSE (1,394) auf KITTI und etabliert damit neue Benchmark-Werte. Auf Cityscapes verbessert SPIdepth SQLdepth um 21,7 % in AbsRel, 36,8 % in SqRel und 16,5 % in RMSE – selbst ohne Verwendung von Bewegungsmasken. Auf Make3D übertrifft SPIdepth in Zero-Shot-Szenarien alle anderen Modelle. Bemerkenswert ist, dass SPIdepth diese Ergebnisse mit lediglich einem einzigen Bild zur Inferenz erzielt, wodurch es sogar Methoden übertrifft, die Video-Sequenzen zur Inferenz nutzen. Dies unterstreicht die Effizienz und Wirksamkeit von SPIdepth in realen Anwendungen. Unser Ansatz stellt einen bedeutenden Fortschritt in der selbstüberwachten monokularen Tiefenschätzung dar und verdeutlicht die entscheidende Rolle der Stärkung der Pose-Information für die Verbesserung des Szenenverstehens in realen Umgebungen. Der Quellcode und vortrainierte Modelle sind öffentlich unter https://github.com/Lavreniuk/SPIdepth verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp