MVSNet: Tiefenschätzung für unstrukturierte Multi-View-Stereobilder

Wir präsentieren eine end-to-end Tiefenkartenerzeugungsausrichtung für die Inferenz von Tiefenkarten aus multiview-Bildern. Im Netzwerk extrahieren wir zunächst tiefe visuelle Bildmerkmale und bauen dann das 3D-Kostenvolumen im Frustum der Referenzkamera durch differenzierbares Homographie-Warping auf. Anschließend wenden wir 3D-Faltungen an, um die initiale Tiefenkarte zu regularisieren und zu regressieren, die dann mit dem Referenzbild verfeinert wird, um die endgültige Ausgabe zu erzeugen. Unser Framework passt sich flexibel an beliebige N-Blickwinkel-Eingaben an, indem es ein varianzbasiertes Kostenmaß verwendet, das mehrere Merkmale in ein Kostenmerkmal abbildet. Das vorgeschlagene MVSNet (Multi-View Stereo Network) wird am groß angelegten Indoor-DTU-Datensatz demonstriert. Mit einfacher Nachbearbeitung übertrifft unsere Methode nicht nur signifikant die bisherigen Stand der Technik, sondern ist auch um ein Vielfaches schneller in der Laufzeit. Wir bewerten MVSNet auch am komplexen Outdoor-Datensatz „Tanks and Temples“. Dort rangiert unsere Methode bis zum 18. April 2018 auf Platz eins ohne jede Feinabstimmung, was die starke Generalisierungsfähigkeit von MVSNet zeigt.