EPP-MVSNet : Prédiction de profondeur basée sur l'assemblage épipolaire pour la stéréo multi-vue

Dans cet article, nous proposons EPP-MVSNet, un nouveau réseau de deep learning pour la reconstruction 3D à partir de stéréo à plusieurs vues (MVS). EPP-MVSNet permet d’agréger avec précision les caractéristiques à haute résolution dans un volume de coût limité, sur une plage de profondeur optimale, conduisant ainsi à une construction 3D efficace et performante. Contrairement aux approches existantes qui évaluent le coût des caractéristiques à des positions discrètes, ce qui nuit à la précision de la reconstruction 3D, EPP-MVSNet introduit un noyau fondé sur l’assemblage épipolaire, opérant sur des intervalles adaptatifs le long des lignes épipolaires, afin d’exploiter pleinement la résolution des images. Par ailleurs, nous proposons une stratégie de raffinement basée sur l’entropie, permettant au volume de coût de décrire la géométrie de l’espace avec une redondance minimale. En outre, nous avons conçu un réseau léger intégrant des convolutions pseudo-3D pour atteindre à la fois haute précision et efficacité. Nous avons mené des expérimentations étendues sur des jeux de données exigeants : Tanks & Temples (TNT), ETH3D et DTU. Les résultats obtenus sont prometteurs sur tous les jeux de données, avec le meilleur score F sur le benchmark intermédiaire en ligne de TNT. Le code est disponible à l’adresse suivante : https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/eppmvsnet.