HyperAIHyperAI
il y a 2 mois

Mélanger et Apprendre : Apprentissage non supervisé utilisant la vérification de l'ordre temporel

Ishan Misra; C. Lawrence Zitnick; Martial Hebert
Mélanger et Apprendre : Apprentissage non supervisé utilisant la vérification de l'ordre temporel
Résumé

Dans cet article, nous présentons une approche pour apprendre une représentation visuelle à partir des signaux spatiotemporels bruts dans les vidéos. Notre représentation est apprise sans supervision à partir de labels sémantiques. Nous formulons notre méthode comme une tâche de vérification séquentielle non supervisée, c'est-à-dire que nous déterminons si une séquence d'images provenant d'une vidéo est dans l'ordre temporel correct. Grâce à cette tâche simple et en l'absence de labels sémantiques, nous apprenons une représentation visuelle puissante en utilisant un réseau neuronal convolutif (CNN). Cette représentation contient des informations complémentaires à celles apprises à partir de jeux de données d'images supervisées comme ImageNet. Les résultats qualitatifs montrent que notre méthode capture des informations qui varient temporellement, telles que la posture humaine. Lorsqu'elle est utilisée comme pré-entraînement pour la reconnaissance d'actions, notre méthode offre des gains significatifs par rapport à l'apprentissage sans données externes sur des jeux de données de référence comme UCF101 et HMDB51. Pour démontrer sa sensibilité à la posture humaine, nous présentons des résultats d'estimation de posture sur les jeux de données FLIC et MPII qui sont compétitifs, voire meilleurs que ceux des approches utilisant beaucoup plus de supervision. Notre méthode peut être combinée avec des représentations supervisées pour fournir une amélioration supplémentaire en termes de précision.

Mélanger et Apprendre : Apprentissage non supervisé utilisant la vérification de l'ordre temporel | Articles de recherche récents | HyperAI