Inférence de profondeur basée sur la pyramide de volume de coût pour la stéréoscopie multi-vue

Nous proposons un réseau neuronal basé sur le volume de coût pour l'inférence de profondeur à partir d'images multivues. Nous démontrons que la construction d'une pyramide de volumes de coût selon une approche grossière à fine, plutôt que la création d'un volume de coût à une résolution fixe, conduit à un réseau compact et léger, et permet d'inférer des cartes de profondeur à haute résolution pour obtenir de meilleurs résultats de reconstruction. À cette fin, nous construisons initialement un volume de coût basé sur un échantillonnage uniforme de plans frontoparallèles sur toute la plage de profondeur, à la plus faible résolution d'une image. Ensuite, en utilisant l'estimation actuelle de la profondeur, nous construisons itérativement de nouveaux volumes de coût sur le résidu de profondeur pixel par pixel pour affiner la carte de profondeur. Bien que partageant une intuition similaire avec Point-MVSNet en prédiction et affinage itératifs de la profondeur, nous montrons que travailler sur une pyramide de volumes de coût peut conduire à une structure réseau plus compacte et efficace comparée à Point-MVSNet sur les points 3D. Nous fournissons également des analyses détaillées du rapport entre l'échantillonnage (résiduel) de profondeur et la résolution des images, ce qui sert comme principe pour construire une pyramide de volumes de coût compacte. Les résultats expérimentaux sur des jeux de données benchmarks montrent que notre modèle peut fonctionner 6 fois plus rapidement tout en ayant des performances similaires aux méthodes les plus avancées. Le code est disponible à l'adresse suivante : https://github.com/JiayuYANG/CVP-MVSNet