Wenn Epipolare Restriktionen auf Nichtlokale Operatoren in der Multi-View-Stereo-Bildverarbeitung treffen

Lernbasierte Methoden für Multi-View-Stereoskopie (MVS) hängen stark von der Merkmalsabgleichung ab, die ausgeprägte und beschreibende Darstellungen erfordert. Eine effektive Lösung besteht darin, nicht-lokale Merkmalsaggregation zu verwenden, z. B. Transformer. Obwohl diese Techniken nützlich sind, führen sie zu erheblichen Rechenaufwänden für MVS. Jedes Pixel ist dicht mit dem gesamten Bild verbunden. Im Gegensatz dazu schlagen wir vor, die nicht-lokale Merkmalsverstärkung auf ein Paar von Linien zu beschränken: jeder Punkt ist nur mit dem entsprechenden Paar von epipolaren Linien verbunden. Unsere Idee stützt sich auf die klassische Epipolare Geometrie, die zeigt, dass ein Punkt mit verschiedenen Tiefenhypothesen auf die epipolare Linie in der anderen Ansicht projiziert wird. Diese Beschränkung reduziert den 2D-Suchraum im Stereoabgleich auf die epipolare Linie. Ähnlich deutet dies darauf hin, dass der Abgleich bei MVS darin besteht, eine Reihe von Punkten entlang derselben Linie zu unterscheiden. Inspiriert durch dieser Punkt-zu-Linien-Suche haben wir eine Strategie zur nicht-lokalen Verstärkung von Linie zu Punkt entwickelt. Zunächst legen wir einen optimierten Suchalgorithmus fest, um die 2D-Merkmalskarten in Paare von epipolaren Linien aufzuteilen. Dann führt ein Epipolarer Transformer (ET) eine nicht-lokale Merkmalsverstärkung zwischen den Paaren von epipolaren Linien durch. Wir integrieren den ET in eine lernbasierte MVS-Basislinie, die als ET-MVSNet bezeichnet wird. ET-MVSNet erreicht den aktuellen Stand der Technik in Bezug auf Rekonstruktionsleistung sowohl im DTU- als auch im Tanks-and-Temples-Benchmark und zeichnet sich durch hohe Effizienz aus. Der Quellcode ist unter https://github.com/TQTQliu/ET-MVSNet verfügbar.