Apprentissage de la cohérence cyclique temporelle

Nous présentons une méthode d'apprentissage de représentation auto-supervisée basée sur la tâche d'alignement temporel entre vidéos. Cette méthode entraîne un réseau en utilisant la cohérence cyclique temporelle (TCC), une perte cyclique différentiable qui peut être utilisée pour trouver des correspondances dans le temps entre plusieurs vidéos. Les plongements par image obtenus peuvent être utilisés pour aligner les vidéos simplement en appariant les images à l'aide des plus proches voisins dans l'espace de plongement appris.Pour évaluer la puissance de ces plongements, nous avons étiqueté de manière dense les jeux de données vidéo Pouring et Penn Action pour les phases d'action. Nous montrons que (i) les plongements appris permettent une classification à partir de peu d'exemples (few-shot) de ces phases d'action, réduisant considérablement les exigences de formation supervisée ; et (ii) la TCC est complémentaire à d'autres méthodes d'apprentissage auto-supervisé dans les vidéos, telles que Shuffle and Learn et les Réseaux Temporels Contrastifs (Time-Contrastive Networks). Les plongements sont également utilisés pour diverses applications basées sur l'alignement (correspondance temporelle dense) entre paires de vidéos, y compris le transfert de métadonnées de modalités synchronisées entre vidéos (sons, étiquettes sémantiques temporelles), la lecture synchronisée de plusieurs vidéos et la détection d'anomalies. Page web du projet : https://sites.google.com/view/temporal-cycle-consistency .