Chaque Tir Compte : Utilisation d'Exemples pour le Comptage de Répétitions dans les Vidéos

Le comptage de répétitions vidéo consiste à inférer le nombre de répétitions d'actions ou de mouvements récurrents au sein d'une vidéo. Nous proposons une approche basée sur des exemples qui découvre la correspondance visuelle entre les exemples vidéo à travers les répétitions dans les vidéos cibles. Notre modèle proposé, Every Shot Counts (ESCounts), est un encodeur-décodeur basé sur l'attention qui encode des vidéos de longueurs variables ainsi que des exemples provenant de vidéos identiques et différentes. Lors de l'entraînement, ESCounts régresse les positions présentant une forte correspondance avec les exemples au sein de la vidéo. Parallèlement, notre méthode apprend une représentation latente qui encode des mouvements répétitifs généraux, que nous utilisons pour l'inférence zéro-shot sans exemple. De nombreux expériences menées sur des ensembles de données couramment utilisés (RepCount, Countix et UCFRep) montrent que ESCounts obtient des performances de pointe sur les trois ensembles de données. Des analyses détaillées par élimination successive démontrent davantage l'efficacité de notre méthode.