Vers une déconnexion non linéaire dans les données naturelles par codage temporel creux

Nous proposons un modèle d’apprentissage non supervisé capable d’obtenir une décomposition non linéaire des facteurs sous-jacents de variation dans des vidéos naturelles. Des travaux antérieurs suggèrent que les représentations peuvent être décomposées si, à tout instant, tous les facteurs environnementaux, sauf quelques-uns, restent constants. En conséquence, les algorithmes proposés pour ce problème n’ont été testés que sur des jeux de données soigneusement conçus présentant cette propriété spécifique, laissant planer le doute quant à leur transférabilité vers des scènes naturelles. Ici, nous fournissons des preuves que les objets présents dans des vidéos naturelles segmentées subissent des transitions généralement de faible amplitude, ponctuées d’écarts soudains, ce qui caractérise une distribution temporellement creuse. Nous exploitons cette observation pour introduire SlowVAE, un modèle d’apprentissage non supervisé de représentations qui utilise une priorité creuse sur les observations adjacentes dans le temps afin de décomposer les facteurs génératifs sans aucune hypothèse sur le nombre de facteurs en évolution. Nous fournissons une preuve d’identifiabilité et montrons que le modèle apprend de manière fiable des représentations décomposées sur plusieurs jeux de données standards, dépassant souvent l’état de l’art actuel. Nous démontrons également sa capacité de transfert sur des jeux de données vidéo présentant des dynamiques naturelles, tels que Natural Sprites et KITTI Masks, que nous contribuons comme nouveaux benchmarks pour orienter la recherche sur la décomposition vers des domaines de données plus naturelles.