Kosten-Volumen-Pyramidenbasierte Tiefenschätzung für Multi-View Stereo

Wir schlagen ein neuronales Netzwerk auf Basis von Kostenvolumen für die Tiefenschätzung aus multiview-Bildern vor. Wir zeigen, dass das Aufbauen einer Kostenvolumen-Pyramide in einem von grob zu fein angeordneten Verfahren, anstatt das Erstellen eines Kostenvolumens bei einer festen Auflösung, zu einem kompakten und leichten Netzwerk führt und es uns ermöglicht, hochauflösende Tiefenkarten zu generieren, um bessere Rekonstruktionsergebnisse zu erzielen. Dazu bauen wir zunächst ein Kostenvolumen auf der Grundlage einer gleichmäßigen Abtastung von frontoparallelen Ebenen über den gesamten Tiefenbereich bei der niedrigsten Auflösung eines Bildes auf. Anschließend konstruieren wir unter Berücksichtigung der aktuellen Tiefenschätzung neue Kostenvolumina iterativ basierend auf dem punktweisen Tiefenrest zur Verfeinerung der Tiefenkarte. Obwohl unsere Methode ähnliche Einsichten wie Point-MVSNet teilt, indem sie die Tiefenschätzung und -verfeinerung iterativ vornimmt, zeigen wir, dass das Arbeiten mit einer Kostenvolumen-Pyramide zu einer kompakteren und effizienteren Netzwerkstruktur im Vergleich zu Point-MVSNet auf 3D-Punkten führen kann. Wir liefern zudem eine detaillierte Analyse des Zusammenhangs zwischen (Residual-)Tiefensampling und Bildauflösung, die als Prinzip für den Aufbau kompakter Kostenvolumen-Pyramiden dient. Experimentelle Ergebnisse an Standard-Datensätzen zeigen, dass unser Modell 6-mal schneller arbeitet und vergleichbare Leistungen wie die besten bisher bekannten Methoden erzielt. Der Quellcode ist unter https://github.com/JiayuYANG/CVP-MVSNet verfügbar.