Classification de vidéos en few-shot par alignement temporel

L'intérêt pour l'apprentissage d'un modèle capable de reconnaître de nouvelles classes avec seulement quelques exemples étiquetés est en constante augmentation. Dans cet article, nous proposons le module d'alignement temporel (TAM), un cadre novateur d'apprentissage par tirs limités qui peut apprendre à classifier une vidéo précédemment non vue. Alors que la plupart des travaux antérieurs négligent les informations d'ordre temporel à long terme, notre modèle proposé exploite explicitement ces informations dans les données vidéo grâce à l'alignement temporel. Cela conduit à une forte efficacité des données pour l'apprentissage par tirs limités. Plus précisément, TAM calcule la valeur de distance entre la vidéo de requête et les représentants de nouvelles classes en moyennant les distances par image le long de son chemin d'alignement. Nous introduisons une relaxation continue dans TAM afin que le modèle puisse être appris de manière end-to-end pour optimiser directement l'objectif d'apprentissage par tirs limités. Nous évaluons TAM sur deux jeux de données réels et difficiles, Kinetics et Something-Something-V2, et montrons que notre modèle apporte une amélioration significative de la classification vidéo par tirs limités par rapport à une large gamme de baselines compétitives.