Estimation du flot optique à l'aide d'un réseau en pyramide spatiale

Nous apprenons à calculer le flot optique en combinant une formulation pyramidale spatiale classique avec l'apprentissage profond. Cette méthode estime les grands mouvements par une approche de grossière à fine, en déformant (warping) une image d'un couple à chaque niveau de la pyramide selon l'estimation actuelle du flot et en calculant une mise à jour de ce flot. Au lieu de la minimisation standard d'une fonction objectif à chaque niveau de la pyramide, nous formons un réseau profond par niveau pour calculer la mise à jour du flot. Contrairement à l'approche FlowNet récente, nos réseaux n'ont pas besoin de gérer des mouvements importants ; ceux-ci sont traités par la pyramide. Cela présente plusieurs avantages. Premièrement, notre Réseau Pyramidal Spatiale (SPyNet) est beaucoup plus simple et 96% plus petit que FlowNet en termes de paramètres du modèle. Cela le rend plus efficace et approprié pour les applications embarquées. Deuxièmement, comme le flot à chaque niveau de la pyramide est petit (< 1 pixel), une approche convolutive appliquée aux paires d'images déformées est pertinente. Troisièmement, contrairement à FlowNet, les filtres convolutifs appris ressemblent aux filtres spatio-temporels classiques, offrant des insights sur la méthode et comment l'améliorer. Nos résultats sont plus précis que ceux de FlowNet sur la plupart des benchmarks standards, suggérant une nouvelle direction pour combiner les méthodes classiques de flot avec l'apprentissage profond.