Wiederbesuch der Multi-View-Stereo-Darstellung: Regionenbewusstes MVSNet

Das tiefe Lernen-basierte Multi-View-Stereo (MVS) ist als leistungsfähiges Paradigma zur Rekonstruktion vollständig geometrisch detaillierter Objekte aus mehreren Ansichten hervorgetreten. Die meisten existierenden Ansätze schätzen nur den pixelweisen Tiefenwert, indem sie die Differenz zwischen dem vorhergesagten Punkt und dem Schnittpunkt von Strahl und Oberfläche minimieren, was in der Regel die Oberflächen-Topologie außer Acht lässt. Dies ist besonders kritisch für texturfreie Bereiche und Oberflächenränder, die nicht angemessen rekonstruiert werden können. Um dieses Problem zu lösen, schlagen wir vor, den Punkt-zu-Oberflächen-Abstand zu nutzen, sodass das Modell in der Lage ist, eine größere Vielfalt an Oberflächen wahrzunehmen. Zu diesem Zweck prognostizieren wir das Abstands-Volumen aus dem Kosten-Volumen, um den signierten Abstand der Punkte in der Nähe der Oberfläche zu schätzen. Unser vorgeschlagener RA-MVSNet ist patch-bewusst, da das Wahrnehmungsfeld durch die Verknüpfung hypothetischer Ebenen mit einem Oberflächen-Patch erweitert wird. Dadurch kann die Vollständigkeit von texturfreien Bereichen erhöht und die Ausreißer am Rand reduziert werden. Zudem können durch das eingeführte Abstands-Volumen Gitter-Topologien mit feinen Details generiert werden. Verglichen mit herkömmlichen tiefen Lern-basierten MVS-Methoden erreicht unser vorgeschlagener RA-MVSNet-Ansatz durch die Nutzung der signierten Abstandsüberwachung vollständigere Rekonstruktionsresultate. Experimente sowohl auf den DTU- als auch auf den Tanks & Temples-Datensätzen zeigen, dass unser vorgeschlagener Ansatz den Stand der Technik erreicht.