Tiefe Stereobildverarbeitung mit adaptiver dünn-volumetrischer Darstellung und Unsicherheitsbewusstsein

Wir präsentieren das Uncertainty-aware Cascaded Stereo Network (UCS-Net) zur 3D-Rekonstruktion aus mehreren RGB-Bildern. Das Multi-View-Stereo (MVS) zielt darauf ab, detaillierte Szenegeometrie aus multiview-Bildern zu rekonstruieren. Frühere lernbasierte MVS-Methoden schätzen die Tiefen pro Ansicht unter Verwendung von Planarsweep-Volumina mit einer festen Tiefenhypothese auf jeder Ebene; dies erfordert im Allgemeinen dicht gesampelte Ebenen für die gewünschte Genauigkeit und es ist sehr schwierig, eine hohe Auflösung der Tiefenschätzung zu erreichen. Im Gegensatz dazu schlagen wir adaptive dünnere Volumina (ATVs) vor; in einem ATV variiert die Tiefenhypothese jeder Ebene räumlich, was sich an die Unsicherheiten der früheren pixelbasierten Tiefenschätzungen anpasst. Unser UCS-Net besteht aus drei Stufen: Die erste Stufe verarbeitet ein kleines Standard-Planarsweep-Volumen, um eine Tiefenschätzung mit niedriger Auflösung vorherzusagen; in den folgenden Stufen werden dann zwei ATVs verwendet, um die Tiefenschätzung mit höherer Auflösung und Genauigkeit zu verfeinern. Unser ATV besteht nur aus einer kleinen Anzahl von Ebenen; trotzdem teilt es lokale Tiefenbereiche innerhalb gelernter kleiner Intervalle effizient auf. Insbesondere schlagen wir vor, varianzbasierte Unsicherheitsschätzungen zu verwenden, um ATVs adaptiv zu konstruieren; dieser differenzierbare Prozess führt zu einer vernünftigen und feingranularen räumlichen Partitionierung. Unser mehrstufiges Framework unterteilt den großen Szenenraum progressiv in zunehmender Tiefenaufgelöstheit und Präzision, was eine Rekonstruktion der Szene mit hoher Vollständigkeit und Genauigkeit im Grob-zu-Fin Modus ermöglicht. Wir zeigen, dass unsere Methode eine überlegene Leistung im Vergleich zu den neuesten Benchmarks auf verschiedenen anspruchsvollen Datensätzen erzielt.