DS-Depth: Dynamische und statische Tiefenschätzung über einen Fusion-Kostenvolumen

Selbstüberwachte Methoden zur monokularen Tiefenschätzung basieren typischerweise auf dem Reprojektionsfehler, um geometrische Beziehungen zwischen aufeinanderfolgenden Bildern in statischen Umgebungen zu erfassen. Dieser Ansatz beruht jedoch auf der Annahme, dass sich die Szene während der Aufnahme nicht verändert, was in Szenen mit dynamischen Objekten nicht zutrifft. Dadurch entstehen Fehler im Prozess der Ansichtssynthese, wie beispielsweise Merkmalsmismatch und Okklusion, die die Genauigkeit der generierten Tiefenkarten erheblich beeinträchtigen können. Um dieses Problem anzugehen, schlagen wir ein neuartiges dynamisches Kostenvolumen vor, das den verbleibenden optischen Fluss nutzt, um sich bewegende Objekte präziser zu beschreiben, und somit falsch okkulierte Bereiche in den statischen Kostenvolumina, wie sie in früheren Arbeiten verwendet wurden, verbessert. Dennoch führt das dynamische Kostenvolumen zwangsläufig zu zusätzlichen Okklusionen und Rauschen. Um dies zu mildern, entwerfen wir ein Fusionsmodul, das statische und dynamische Kostenvolumina gegenseitig kompensieren lässt: Okklusionen aus dem statischen Volumen werden durch das dynamische Volumen verfeinert, während ungenaue Informationen aus dem dynamischen Volumen durch das statische Volumen eliminiert werden. Darüber hinaus stellen wir eine pyramidale Distanzverlustfunktion vor, um photometrische Fehlertoleranzen bei niedrigen Auflösungen zu reduzieren, sowie einen adaptiven photometrischen Fehlverlust, um die Problematik großer Gradienten im optischen Fluss in Okklusionsregionen zu verringern. Wir führen umfangreiche Experimente auf den Datensätzen KITTI und Cityscapes durch, und die Ergebnisse zeigen, dass unser Modell gegenüber zuvor veröffentlichten Benchmarks für selbstüberwachte monokulare Tiefenschätzung deutlich übertrifft.