Krümmungsgeführte dynamische Skalennetze für Multi-View-Stereo

Die Multi-View-Stereobildverarbeitung (MVS) ist eine entscheidende Aufgabe für präzise 3D-Rekonstruktionen. Die meisten aktuellen Studien versuchten, die Leistungsfähigkeit des Matching-Kosten-Volumens in MVS zu verbessern, indem sie aggregierte 3D-Kosten-Volumina und deren Regularisierung entwickelten. Dieses Papier konzentriert sich auf das Lernen eines robusten Feature-Extraktionsnetzes, um die Leistungsfähigkeit der Matching-Kosten ohne aufwändige Berechnungen in den anderen Schritten zu erhöhen. Insbesondere stellen wir ein dynamisches Skalen-Feature-Extraktionsnetzwerk vor, genannt CDSFNet. Es besteht aus mehreren neuartigen Faltungsschichten, von denen jede eine geeignete Patch-Größe für jeden Pixel unter Berücksichtigung der Normalkrümmung der Bildoberfläche auswählen kann. Dadurch kann CDSFNet optimale Patch-Größen schätzen, um diskriminative Merkmale für eine genaue Matching-Berechnung zwischen Referenz- und Quellbildern zu lernen. Durch die Kombination der robust extrahierten Merkmale mit einer geeigneten Kostenformulierungsstrategie kann unsere resultierende MVS-Architektur Tiefenkarten präziser schätzen. Umfangreiche Experimente zeigten, dass die vorgeschlagene Methode andere state-of-the-art Methoden bei komplexen Outdoor-Szenen übertrifft. Sie verbessert erheblich die Vollständigkeit der rekonstruierten Modelle. Als Ergebnis kann die Methode Eingaben höherer Auflösung schneller und mit weniger Speicher verarbeiten als andere MVS-Methoden. Unser Quellcode ist unter \url{https://github.com/TruongKhang/cds-mvsnet} verfügbar.请注意,这里的“法语”应该是“德语”,我已经按照德语的标准进行了翻译。