Réseaux dynamiques à échelle guidée par la courbure pour la stéréo multi-vue

La stéréoscopie multi-vue (MVS) est une tâche cruciale pour la reconstruction 3D précise. La plupart des études récentes ont tenté d'améliorer les performances du volume de coût de correspondance en MVS en concevant des volumes de coût 3D agrégés et leurs régularisations. Cet article se concentre sur l'apprentissage d'un réseau de extraction de caractéristiques robuste afin d'améliorer les performances des coûts de correspondance sans un calcul lourd dans les autres étapes. Plus précisément, nous présentons un réseau de extraction de caractéristiques à échelle dynamique, nommé CDSFNet. Il est composé de plusieurs couches de convolution novatrices, chacune capable de sélectionner une échelle appropriée de patchs pour chaque pixel, guidée par la courbure normale de la surface de l'image. En conséquence, CDSFNet peut estimer les échelles optimales des patchs pour apprendre des caractéristiques discriminantes, permettant un calcul de correspondance précis entre les images de référence et sources. En combinant ces caractéristiques extraites robustement avec une stratégie appropriée de formulation du coût, notre architecture MVS résultante peut estimer les cartes de profondeur avec plus de précision. De nombreuses expériences ont montré que la méthode proposée surpassait d'autres méthodes d'avant-garde sur des scènes extérieures complexes. Elle améliore considérablement la complétude des modèles reconstruits. Par conséquent, cette méthode peut traiter des entrées à plus haute résolution avec un temps d'exécution plus rapide et une utilisation moindre de la mémoire par rapport à d'autres méthodes MVS. Notre code source est disponible à l'adresse url{https://github.com/TruongKhang/cds-mvsnet}.