Estimation du flux optique par correspondance globale avec attention chevauchante

L’estimation du flux optique est une tâche fondamentale en vision par ordinateur. Les méthodes récentes à régression directe basées sur les réseaux de neurones profonds ont permis des améliorations remarquables en termes de performance. Toutefois, elles ne capturent pas explicitement les correspondances de mouvement à long terme, ce qui limite leur efficacité dans le traitement des grands déplacements. Inspirés des méthodes classiques de correspondance-optimisation, où la correspondance est introduite pour gérer les déplacements importants avant l’optimisation basée sur une énergie, nous proposons d’ajouter une étape simple mais efficace de correspondance globale avant la régression directe, et développons ainsi un cadre apprenant par optimisation basée sur la correspondance, nommé GMFlowNet. Dans GMFlowNet, la correspondance globale est calculée de manière efficace en appliquant l’opérateur argmax sur des volumes de coût 4D. En outre, pour améliorer la qualité de la correspondance, nous introduisons une attention par patch à chevauchement afin d’extraire des caractéristiques contextuelles étendues. Des expériences étendues montrent que GMFlowNet surpasser largement RAFT, la méthode la plus populaire basée uniquement sur l’optimisation, et atteint un niveau d’état de l’art sur les benchmarks standards. Grâce à la correspondance globale et à l’attention à chevauchement, GMFlowNet obtient des améliorations significatives dans la prédiction des régions sans texture et des grands mouvements. Le code source est mis à disposition publiquement à l’adresse suivante : https://github.com/xiaofeng94/GMFlowNet