Verallgemeinertes Binäres Suchnetzwerk für hoch-effizientes Multi-View-Stereo

Multi-View-Stereobildverarbeitung (MVS) mit bekannten Kameraparametern ist im Wesentlichen ein eindimensionales Suchproblem innerhalb eines gültigen Tiefenbereichs. Neuere MVS-Methoden, die auf tiefem Lernen basieren, sampeln in der Regel dicht Tiefenhypothesen im Tiefenbereich und konstruieren dann 3D-Kostenvolumina, die den Speicherverbrauch unerträglich erhöhen. Obwohl grob-zu-fein Sampelstrategien dieses Problem bis zu einem gewissen Grad lindern, bleibt die Effizienz von MVS eine offene Herausforderung. In dieser Arbeit schlagen wir eine neuartige Methode für hoch effizientes MVS vor, die den Speicherbedarf erheblich reduziert und gleichzeitig den Stand der Technik bei der Tiefenschätzung deutlich verbessert. Wir untersuchen, welche Suchstrategie unter Berücksichtigung von Effizienz und Effektivität für MVS angemessen optimal sein kann. Zunächst formulieren wir MVS als ein binäres Suchproblem und schlagen dazu ein verallgemeinertes binäres Suchnetzwerk für MVS vor. Insbesondere wird in jedem Schritt der Tiefenbereich in 2 Bins aufgeteilt, wobei jeweils 1 zusätzlicher Fehler-Toleranz-Bin auf beiden Seiten hinzugefügt wird. Eine Klassifizierung wird durchgeführt, um zu bestimmen, welcher Bin die wahre Tiefe enthält. Wir haben auch drei Mechanismen entwickelt, um Klassifizierungsfehler zu behandeln, außerhalb des Bereichs liegende Sampels zu verwalten und den Trainings-Speicherverbrauch zu verringern. Die neue Formulierung ermöglicht es unserer Methode, in jedem Schritt nur eine sehr geringe Anzahl von Tiefenhypothesen zu sampeln, was hoch speicher-effizient ist und zudem eine schnelle Konvergenz des Trainings stark fördert. Experimente an wettbewerbsfähigen Benchmarks zeigen, dass unsere Methode mit viel weniger Speicher den aktuellen Stand der Technik erreicht. Insbesondere erreicht unsere Methode einen Gesamtscore von 0{,}289 auf dem DTU-Datensatz und nimmt unter allen lernbasierten Methoden den ersten Platz im anspruchsvollen Tanks and Temples Advanced-Datensatz ein. Die trainierten Modelle und der Code werden unter https://github.com/MiZhenxing/GBi-Net veröffentlicht werden.