Comptage du Temps : Décompte des Répétitions Vidéo Indépendant de la Classe dans le Milieu Naturel

Nous présentons une approche pour estimer la période à laquelle une action est répétée dans une vidéo. L'essentiel de cette approche réside dans la contrainte du module de prédiction de la période à utiliser l'auto-similarité temporelle comme représentation intermédiaire, ce qui permet une généralisation aux répétitions inconnues dans les vidéos en milieu naturel. Nous entraînons ce modèle, appelé Repnet, avec un ensemble de données synthétiques généré à partir d'une grande collection de vidéos non étiquetées en échantillonnant des extraits courts de longueurs variables et en les répétant avec différentes périodes et fréquences. Cette combinaison de données synthétiques et d'un modèle puissant mais contraint nous permet de prédire les périodes de manière indifférenciée par rapport à la classe. Notre modèle dépasse considérablement les performances de l'état de l'art sur les benchmarks existants de périodicité (PERTUBE) et de comptage de répétitions (QUVA). Nous avons également recueilli un nouveau jeu de données complexe appelé Countix (environ 90 fois plus grand que les jeux de données existants), qui capture les défis du comptage de répétitions dans les vidéos du monde réel. Page web du projet : https://sites.google.com/view/repnet .