GeoMVSNet: Lernen von Multi-View-Stereo mit Geometrie-Wahrnehmung

Kürzlich vorgestellte kaskadenartige Multi-View Stereo-(MVS)-Methoden können hochaufgelöste Tiefenkarten effizient durch Verengung der Hypothesenbereiche schätzen. Allerdings haben frühere Ansätze die entscheidende geometrische Information, die in den groben Stufen enthalten ist, ignoriert, was zu anfälliger Kostenübereinstimmung und suboptimalen Rekonstruktionsergebnissen führt. In diesem Artikel präsentieren wir ein geometriebewusstes Modell, namens GeoMVSNet, das geometrische Hinweise, die in den groben Stufen implizit enthalten sind, explizit integriert, um eine präzise Tiefenschätzung zu ermöglichen. Insbesondere entwerfen wir ein zweigeteiltes Geometriefusionsnetzwerk, um geometrische Vorwissen aus den groben Schätzungen zu extrahieren und die Strukturmerkmalsextraktion in feineren Stufen zu verbessern. Zudem integrieren wir die groben Wahrscheinlichkeitsvolumina – welche wertvolle Eigenschaften der Tiefenverteilung kodieren – in ein leichtgewichtiges Regularisierungsnetzwerk, um die geometrische Intuition entlang der Tiefenachse weiter zu stärken. Gleichzeitig wenden wir Filterung im Frequenzbereich an, um die negativen Auswirkungen hochfrequenter Regionen zu verringern, und nutzen eine Curriculum-Lernstrategie, um die Geometrieintegration des Modells schrittweise zu verbessern. Um die Wahrnehmung der Gesamtszene in Bezug auf Geometrie zu verstärken, führen wir eine Verlustfunktion basierend auf der Annahme eines Gauß-Mischmodells ein, die die Ähnlichkeit der Tiefenverteilung misst. Umfangreiche Experimente auf den Datensätzen DTU und Tanks and Temples (T&T) zeigen, dass unser GeoMVSNet Ergebnisse auf aktuellem Stand der Technik erzielt und sich an erster Stelle im T&T-Advanced-Set befindet. Der Quellcode ist unter https://github.com/doubleZ0108/GeoMVSNet verfügbar.