Réseau stéréo multi-vues avec prise en compte de la visibilité

Les méthodes de stéréovision multivue (MVS) basées sur l'apprentissage ont montré des résultats prometteurs. Cependant, très peu de réseaux existants prennent explicitement en compte la visibilité au niveau des pixels, ce qui entraîne une agrégation de coûts erronée à partir des pixels masqués. Dans cet article, nous inférons et intégrons explicitement les informations d'occlusion au niveau des pixels dans le réseau MVS par l'estimation de l'incertitude d'appariement. La carte d'incertitude paire-à-paire est inférée conjointement avec la carte de profondeur paire-à-paire, qui est ensuite utilisée comme guide de pondération lors de la fusion du volume de coût multivue. Ainsi, l'influence néfaste des pixels masqués est atténuée lors de la fusion des coûts. Le cadre proposé, Vis-MVSNet, améliore considérablement les précisions de profondeur dans les scènes présentant une occlusion sévère. De nombreuses expériences sont menées sur les jeux de données DTU, BlendedMVS et Tanks and Temples pour justifier l'efficacité du cadre proposé.