GMFlow : Apprentissage du flux optique par correspondance globale

L’estimation de flux optique basée sur l’apprentissage a longtemps été dominée par une architecture en volume de coût utilisant des convolutions pour la régression du flux, une approche intrinsèquement limitée aux corrélations locales et donc peu efficace pour relever le défi persistant des grands déplacements. Pour atténuer cette limitation, le cadre d’avant-garde RAFT améliore progressivement la qualité de ses prédictions grâce à un grand nombre d’itérations de raffinement, obtenant des performances remarquables au prix d’un temps de déduction croissant linéairement. Afin de concilier haute précision et efficacité, nous repensons entièrement la pipeline dominante de régression du flux en reformulant le problème du flux optique comme un problème de correspondance globale, identifiant les correspondances par une comparaison directe des similarités de caractéristiques. Plus précisément, nous proposons un cadre GMFlow composé de trois composants principaux : un Transformer personnalisé pour l’amélioration des caractéristiques, une couche de corrélation et de softmax pour la correspondance globale des caractéristiques, et une couche d’attention auto-attention pour la propagation du flux. Nous introduisons également une étape de raffinement qui réutilise GMFlow à une résolution plus élevée pour prédire le flux résiduel. Notre nouveau cadre surpasser le modèle RAFT avec 31 itérations sur le benchmark exigeant Sintel, tout en utilisant uniquement une seule itération de raffinement et en s’exécutant plus rapidement, suggérant ainsi une nouvelle paradigme pour une estimation du flux optique à la fois précise et efficace. Le code est disponible à l’adresse suivante : https://github.com/haofeixu/gmflow.