GeoMVSNet : Apprentissage du stéréo à plusieurs vues avec perception géométrique

Les méthodes récentes de stéréo multi-vues en cascade (MVS) permettent efficacement d’estimer des cartes de profondeur haute résolution en réduisant les plages d’hypothèses. Toutefois, les approches antérieures ont ignoré l’information géométrique essentielle intégrée dans les étapes grossières, entraînant un appariement de coûts vulnérable et des résultats de reconstruction sous-optimaux. Dans cet article, nous proposons un modèle géométriquement conscient, nommé GeoMVSNet, visant à intégrer explicitement les indices géométriques implicites dans les étapes grossières afin d’obtenir une estimation de profondeur plus fine. Plus précisément, nous concevons un réseau de fusion géométrique à deux branches pour extraire des priori géométriques à partir des estimations grossières, afin d’améliorer l’extraction des caractéristiques structurelles aux étapes plus fines. Par ailleurs, nous intégrons les volumes de probabilité grossiers, qui codent des attributs précieux relatifs à la distribution de profondeur, dans un réseau de régularisation léger afin de renforcer davantage l’intuition géométrique selon la direction de profondeur. Par ailleurs, nous appliquons un filtrage dans le domaine fréquentiel pour atténuer l’impact négatif des régions à haute fréquence, et adoptons une stratégie d’apprentissage progressif (curriculum learning) pour améliorer progressivement l’intégration géométrique du modèle. Pour renforcer la perception géométrique globale de la scène, nous introduisons une perte fondée sur l’hypothèse de modèle à mélanges de Gaussiennes, basée sur la similarité de distribution de profondeur. Des expériences abondantes sur les jeux de données DTU et Tanks and Temples (T&T) démontrent que notre GeoMVSNet atteint des résultats de pointe et se classe en tête sur l’ensemble T&T-Advanced. Le code est disponible à l’adresse suivante : https://github.com/doubleZ0108/GeoMVSNet.