Sichtbarkeitsbewusstes Multi-View-Stereo-Netzwerk

Lernbasierte Methoden für Multi-View-Stereo (MVS) haben vielversprechende Ergebnisse gezeigt. Allerdings berücksichtigen nur sehr wenige der existierenden Netze die sichtbarkeitsabhängigen Informationen auf Pixelbasis explizit, was zu fehlerhafter Kostenaggregation von verdeckten Pixeln führt. In dieser Arbeit integrieren wir die sichtbarkeitsabhängigen Informationen explizit in das MVS-Netzwerk durch die Schätzung der Matching-Unsicherheit. Die paarweise Unsicherheitskarte wird gemeinsam mit der paarweisen Tiefenkarte abgeleitet und dient als Gewichtungsleitfaden während der Fusion des mehrblickbezogenen Kostenvolumens. Auf diese Weise wird der negative Einfluss von verdeckten Pixeln in der Kostenumrechnung unterdrückt. Das vorgeschlagene Framework Vis-MVSNet verbessert die Tiefengenauigkeit in Szenen mit schwerwiegendem Verdeckungseffekt erheblich. Um die Effektivität des vorgeschlagenen Frameworks zu belegen, wurden umfangreiche Experimente an den Datensätzen DTU, BlendedMVS und Tanks and Temples durchgeführt.