Adaptive Patch Deformation für texturresistente Multi-View-Stereo

In den letzten Jahren haben ansatzbasierte Methoden auf der Grundlage von Deep Learning aufgrund ihrer herausragenden Fähigkeit, robuste visuelle Merkmale zu extrahieren, erhebliche Fortschritte in der Multi-View-Stereo-Bildverarbeitung erzielt. Allerdings müssen die meisten lernbasierten Ansätze zur Erzielung zufriedenstellender Ergebnisse bei großflächigen, texturlosen Regionen eine Kostenvolumen-Struktur aufbauen und den Empfangsfeldbereich erheblich vergrößern, was zu einem unverhältnismäßig hohen Speicherverbrauch führt. Um sowohl eine speichereffiziente als auch texturlose Regionen widerstandsfähige Lösung zu gewährleisten, übertragen wir innovativ den Kerngedanken der deformierbaren Faltung aus dem Bereich des Deep Learning in die klassische PatchMatch-basierte Methode. Konkret deformieren wir adaptiv den Patch, der um einen Pixel mit mehrdeutiger Zuordnung (sog. unzuverlässiger Pixel) zentriert ist, um das Empfangsfeld zu erweitern, bis ausreichend korrelierte, zuverlässige Pixel (ohne Zuordnungsambiguität) als Referenzpunkte (Ankerpixel) erfasst werden. Beim Durchführen von PatchMatch wird die Zuordnungskostenberechnung eines unzuverlässigen Pixels durch die Ankerpixel eingeschränkt, sodass die Kostenfunktion für den korrekten Tiefenwert global minimal wird – was die Robustheit der Multi-View-Stereo-Analyse erheblich steigert. Um zusätzliche Ankerpixel zu identifizieren und somit eine verbesserte adaptive Patch-Deformation zu ermöglichen, schlagen wir vor, die Zuordnungsambiguität eines bestimmten Pixels anhand der Konvergenz der geschätzten Tiefe im Verlauf der Optimierung zu bewerten. Dadurch erreicht unsere Methode eine state-of-the-art-Leistung auf den Benchmarks ETH3D und Tanks and Temples, während gleichzeitig ein geringer Speicherverbrauch aufrechterhalten wird.