HyperAIHyperAI
il y a 2 mois

RSPNet : Perception de la Vitesse Relative pour l'Apprentissage Non Supervisé de Représentations Vidéo

Peihao Chen; Deng Huang; Dongliang He; Xiang Long; Runhao Zeng; Shilei Wen; Mingkui Tan; Chuang Gan
RSPNet : Perception de la Vitesse Relative pour l'Apprentissage Non Supervisé de Représentations Vidéo
Résumé

Nous étudions l'apprentissage non supervisé de représentations vidéo visant à extraire des caractéristiques de mouvement et d'apparence à partir de vidéos non étiquetées uniquement, qui peuvent être réutilisées pour des tâches en aval telles que la reconnaissance d'actions. Cette tâche est cependant extrêmement difficile en raison de 1) l'information spatio-temporelle hautement complexe contenue dans les vidéos ; et 2) du manque de données étiquetées pour l'entraînement. Contrairement à l'apprentissage de représentations pour les images statiques, il est difficile de construire une tâche auto-supervisée appropriée capable de modéliser efficacement à la fois les caractéristiques de mouvement et d'apparence. Plus récemment, plusieurs tentatives ont été faites pour apprendre des représentations vidéo par le biais de la prédiction de la vitesse de lecture des vidéos. Cependant, il n'est pas trivial d'obtenir des labels de vitesse précis pour les vidéos. De manière plus critique, les modèles appris peuvent avoir tendance à se concentrer sur les motifs de mouvement et, par conséquent, ne pas bien apprendre les caractéristiques d'apparence. Dans cet article, nous observons que la vitesse de lecture relative est plus cohérente avec les motifs de mouvement et fournit ainsi une supervision plus efficace et stable pour l'apprentissage des représentations. Par conséquent, nous proposons une nouvelle méthode pour percevoir la vitesse de lecture et exploiter la différence de vitesse relative entre deux extraits vidéo comme labels. De cette façon, nous sommes capables d'appréhender correctement la vitesse et d'apprendre des caractéristiques de mouvement améliorées. De plus, pour garantir l'apprentissage des caractéristiques d'apparence, nous proposons une tâche axée sur l'apparence où nous contraignons le modèle à percevoir la différence d'apparence entre deux extraits vidéo. Nous montrons que l'optimisation conjointe des deux tâches améliore constamment les performances sur deux tâches en aval : la reconnaissance d'actions et la recherche vidéo. Notamment, pour la reconnaissance d'actions sur le jeu de données UCF101, nous atteignons une précision de 93,7 % sans utiliser des données étiquetées pour le pré-entraînement, surpassant ainsi le modèle pré-entraîné sous supervision ImageNet. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/PeihaoChen/RSPNet.

RSPNet : Perception de la Vitesse Relative pour l'Apprentissage Non Supervisé de Représentations Vidéo | Articles de recherche récents | HyperAI