HyperAIHyperAI
il y a 11 jours

Apprentissage spatio-temporel auto-supervisé par prédiction de l'ordre des extraits vidéo

{ Yueting Zhuang, Di Xie, Jian Shao, Zhou Zhao, Jun Xiao, Dejing Xu}
Apprentissage spatio-temporel auto-supervisé par prédiction de l'ordre des extraits vidéo
Résumé

Nous proposons une technique d’apprentissage spatio-temporel auto-supervisé qui exploite l’ordre chronologique des vidéos. Notre méthode permet d’apprendre une représentation spatio-temporelle des vidéos en prédisant l’ordre des extraits mélangés extraits de la vidéo. Aucune étiquette de catégorie vidéo n’est requise, ce qui confère à notre approche le potentiel d’exploiter un nombre infini de vidéos non annotées. Bien qu’il existe des travaux antérieurs utilisant des trames, les extraits (clips) sont plus cohérents avec la dynamique vidéo. Ils permettent de réduire l’incertitude relative à l’ordre et s’avèrent plus adaptés pour apprendre une représentation vidéo. Des réseaux de neurones convolutifs 3D sont utilisés pour extraire les caractéristiques des clips, dont les représentations sont ensuite traitées afin de prédire l’ordre réel. Les représentations apprises sont évaluées à l’aide d’expériences de recherche par plus proche voisin. Nous utilisons également les réseaux appris comme modèles pré-entraînés, puis les fine-tunons sur une tâche de reconnaissance d’actions. Trois types de réseaux de neurones convolutifs 3D sont testés dans les expériences, et nous obtenons des améliorations significatives par rapport aux méthodes auto-supervisées existantes.

Apprentissage spatio-temporel auto-supervisé par prédiction de l'ordre des extraits vidéo | Articles de recherche récents | HyperAI