HyperAIHyperAI
il y a 2 mois

SLIC : Apprentissage auto-supervisé avec regroupement itératif pour les vidéos d'actions humaines

Salar Hosseini Khorasgani; Yuxuan Chen; Florian Shkurti
SLIC : Apprentissage auto-supervisé avec regroupement itératif pour les vidéos d'actions humaines
Résumé

Les méthodes d'apprentissage auto-supervisé ont considérablement réduit l'écart avec l'apprentissage supervisé de bout en bout pour la classification d'images. Dans le cas des vidéos d'actions humaines, cependant, où l'apparence et le mouvement sont des facteurs de variation importants, cet écart reste significatif. L'une des principales raisons est que l'échantillonnage de paires de clips vidéo similaires, une étape nécessaire pour de nombreuses méthodes d'apprentissage auto-supervisé par contraste, est actuellement effectué de manière prudente pour éviter les faux positifs. Une hypothèse courante est que les clips similaires ne se produisent que temporellement proches au sein d'une seule vidéo, ce qui entraîne un nombre insuffisant d'exemples de similarité de mouvement. Pour atténuer ce problème, nous proposons SLIC (Self-supervised Learning with Iterative Clustering), une méthode d'apprentissage auto-supervisé par contraste basée sur le regroupement pour les vidéos d'actions humaines. Notre contribution principale est que nous améliorons l'échantillonnage positif traditionnel intra-vidéo en utilisant un regroupement itératif pour regrouper des instances vidéo similaires. Cela permet à notre méthode d'utiliser les pseudo-étiquettes issues des affectations de clusters pour échantillonner des positifs et des négatifs plus difficiles. SLIC surpasses les méthodes de base d'extraction vidéo de pointe avec une amélioration de +15,4 % du rappel en tête sur UCF101 et de +5,7 % lorsqu'il est transféré directement à HMDB51. Avec un affinage de bout en bout pour la classification d'actions, SLIC atteint une précision en tête de 83,2 % (+0,8 %) sur UCF101 et 54,5 % sur HMDB51 (+1,6 %). Après un préapprentissage auto-supervisé sur Kinetics400, SLIC est également compétitive avec l'état de l'art en classification d'actions.

SLIC : Apprentissage auto-supervisé avec regroupement itératif pour les vidéos d'actions humaines | Articles de recherche récents | HyperAI