Apprentissage du flux optique à partir de quelques correspondances

Les modèles d’architecture neuronale de pointe pour l’estimation du flux optique nécessitent un volume de corrélation dense à haute résolution afin de représenter le déplacement par pixel. Bien que ce volume de corrélation dense soit informatif pour une estimation précise, son coût computationnel élevé et sa consommation mémoire importante entravent l’entraînement efficace et le déploiement de ces modèles. Dans cet article, nous démontrons que la représentation par volume de corrélation dense est redondante, et qu’une estimation précise du flux peut être obtenue en ne conservant qu’une fraction des éléments de ce volume. À partir de cette observation, nous proposons une alternative de représentation du déplacement, nommée Volume de Corrélation Épars, construit directement en calculant les k correspondances les plus proches dans une carte de caractéristiques pour chaque vecteur de caractéristiques de l’autre carte, puis stocké dans une structure de données creuse. Les expériences montrent que notre méthode permet de réduire de manière significative le coût computationnel et la consommation mémoire, tout en maintenant une précision élevée par rapport aux approches précédentes utilisant des volumes de corrélation denses. Le code est disponible à l’adresse suivante : https://github.com/zacjiang/scv.