Codage géométrique itératif par volume pour le matching stéréoscopique

Le Recurrent All-Pairs Field Transforms (RAFT) a montré un grand potentiel dans les tâches de correspondance. Cependant, les corrélations entre tous les paires manquent de connaissances géométriques non locales et ont des difficultés à résoudre les ambiguïtés locales dans les régions mal posées. Dans cet article, nous proposons le Iterative Geometry Encoding Volume (IGEV-Stereo), une nouvelle architecture de réseau profond pour la correspondance stéréoscopique. L'IGEV-Stereo proposé construit un volume d'encodage géométrique combiné qui encode des informations géométriques et contextuelles ainsi que des détails de correspondance locale, et l'indexe itérativement pour mettre à jour la carte de disparité. Pour accélérer la convergence, nous utilisons le GEV pour régresser un point de départ précis pour les itérations des ConvGRUs. Notre IGEV-Stereo se classe en $1^{er}$ sur KITTI 2015 et 2012 (Réfléchissant) parmi toutes les méthodes publiées et est le plus rapide parmi les dix meilleures méthodes. De plus, l'IGEV-Stereo présente une forte généralisation inter-bases de données ainsi qu'une haute efficacité d'inférence. Nous avons également étendu notre IGEV à la stéréoscopie multi-vue (MVS), c'est-à-dire IGEV-MVS, qui atteint une précision compétitive sur le benchmark DTU. Le code est disponible sur https://github.com/gangweiX/IGEV.