Lorsque la Contrainte Épipolaire Rencontre les Opérateurs Non-locaux dans la Stéréoscopie Multi-vue

La méthode de stéréoscopie multi-vue basée sur l'apprentissage (MVS) repose fortement sur le couplage de caractéristiques, qui nécessite des représentations distinctes et descriptives. Une solution efficace consiste à appliquer une agrégation de caractéristiques non locales, par exemple un Transformer. Bien que ces techniques soient utiles, elles introduisent un surcoût de calcul important pour la MVS. Chaque pixel est en effet connecté de manière dense à l'ensemble de l'image. En revanche, nous proposons de restreindre l'agrégation de caractéristiques non locales à un couple de lignes : chaque point ne se concentre que sur le couple correspondant de lignes épipolaires. Notre idée s'inspire de la géométrie épipolaire classique, qui montre qu'un point avec différentes hypothèses de profondeur sera projeté sur la ligne épipolaire dans l'autre vue. Cette contrainte réduit l'espace de recherche 2D à la ligne épipolaire dans le couplage stéréoscopique. De même, cela suggère que le couplage MVS consiste à distinguer une série de points situés sur la même ligne. Inspirés par cette recherche point-à-ligne, nous avons élaboré une stratégie d'augmentation non locale ligne-à-point. Nous avons d'abord conçu un algorithme optimisé pour diviser les cartes de caractéristiques 2D en paires de lignes épipolaires. Ensuite, un Transformers Épipolaire (ET) effectue une augmentation non locale des caractéristiques entre les paires de lignes épipolaires. Nous intégrons l'ET dans une base MVS basée sur l'apprentissage, nommée ET-MVSNet. L'ET-MVSNet atteint des performances d'extraction 3D d'avant-garde tant sur le banc d'essai DTU que sur Tanks-and-Temples, tout en étant très efficace. Le code source est disponible à l'adresse suivante : https://github.com/TQTQliu/ET-MVSNet.