TransRAC : Codage de la corrélation temporelle multi-échelle avec des Transformers pour le comptage d'actions répétitives

Le décompte d'actions répétitives est couramment observé dans les activités humaines telles que l'exercice physique. Les méthodes existantes se concentrent sur le décompte d'actions répétitives dans des vidéos courtes, ce qui pose des défis pour traiter des vidéos plus longues dans des scénarios plus réalistes. À l'ère de la conduite par les données, cette diminution de la capacité de généralisation est principalement attribuée au manque de jeux de données de vidéos longues. Pour combler cette lacune, nous présentons un nouveau jeu de données à grande échelle pour le décompte d'actions répétitives, couvrant une large gamme de durées vidéo, ainsi que des situations plus réalistes où des interruptions ou des incohérences d'action peuvent survenir dans la vidéo. De plus, nous fournissons une annotation fine des cycles d'action plutôt qu'une simple annotation de décompte accompagnée d'une valeur numérique. Ce jeu de données contient 1 451 vidéos avec environ 20 000 annotations, ce qui le rend plus complexe. Pour le décompte d'actions répétitives dans des scénarios plus réalistes, nous proposons également l'encodage de corrélations temporelles multi-échelles à l'aide de transformateurs, capable de prendre en compte à la fois les performances et l'efficacité. En outre, grâce à l'aide d'une annotation fine des cycles d'action, nous proposons une méthode basée sur la régression de cartes de densité pour prédire la période d'action, offrant ainsi de meilleures performances avec une interprétabilité suffisante. Notre méthode proposée surpassse les méthodes les plus avancées actuellement disponibles sur tous les jeux de données et obtient également de meilleures performances sur un jeu de données non vu sans ajustement fin. Le jeu de données et le code sont disponibles.