Flot de Filtre Prédictif Multigrille pour l'Apprentissage Non Supervisé sur les Vidéos

Nous présentons le cadre de multigrille Predictive Filter Flow (mgPFF) pour l'apprentissage non supervisé sur des vidéos. Le mgPFF prend en entrée une paire d'images et produit des filtres par pixel pour déformer une image vers l'autre. Comparé au flux optique utilisé pour la déformation des images, le mgPFF est plus performant dans la modélisation du mouvement sous-pixel et la gestion des corruptions (par exemple, flou de mouvement). Nous développons une stratégie de modélisation de basse à haute résolution (multigrille) qui évite la nécessité d'apprendre de grands filtres pour capturer de grands déplacements. Cela nous permet d'entraîner un modèle extrêmement compact (4,6 Mo) qui opère de manière progressive sur plusieurs résolutions avec des poids partagés. Nous entraînons le mgPFF sur des vidéos non supervisées et libres-formes, et montrons que le mgPFF est capable non seulement d'estimer le flux à longue portée pour la reconstruction d'images et la détection des transitions de plans vidéo, mais aussi qu'il peut être facilement adapté à la segmentation d'objets vidéo et au suivi de posture, où il dépasse considérablement l'état de l'art publié sans recourir à des techniques supplémentaires complexes. De plus, grâce à la nature du mgPFF consistant à prédire des filtres par pixel, nous avons l'opportunité unique de visualiser comment chaque pixel évolue lors de la résolution de ces tâches, ce qui améliore notre capacité d'interprétation.