Suivi Émergent par Colorisation de Vidéos

Nous utilisons de grandes quantités de vidéos non étiquetées pour apprendre des modèles de suivi visuel sans supervision manuelle humaine. Nous exploitons la cohérence temporelle naturelle de la couleur pour créer un modèle capable d'ajouter des couleurs à des vidéos en niveaux de gris en copiant les couleurs d'un cadre de référence. Les expériences quantitatives et qualitatives suggèrent que cette tâche permet au modèle d'apprendre automatiquement à suivre des régions visuelles. Bien que le modèle soit entraîné sans aucune étiquette de vérité terrain, notre méthode apprend suffisamment bien à suivre pour surpasser les méthodes les plus récentes basées sur l'écoulement optique (optical flow). De plus, nos résultats indiquent que les échecs de suivi sont corrélés avec les échecs de colorisation, ce qui suggère que l'amélioration de la colorisation vidéo pourrait encore améliorer le suivi visuel auto-supervisé.