il y a 19 jours

ActionCLIP : Un nouveau paradigme pour la reconnaissance d’actions vidéo

Mengmeng Wang, Jiazheng Xing, Yong Liu

Résumé

L’approche classique de la reconnaissance d’actions vidéo impose à un modèle neuronal de réaliser une tâche standard de vote majoritaire 1-sur-N. Ces modèles sont entraînés à prédire un ensemble fixe de catégories prédéfinies, ce qui limite leur capacité de transfert sur de nouveaux jeux de données comportant des concepts inédits. Dans cet article, nous proposons une nouvelle perspective sur la reconnaissance d’actions en accordant une importance particulière à l’information sémantique des libellés textuels, plutôt que de les mapper simplement en nombres. Plus précisément, nous reformulons cette tâche comme un problème d’appariement vidéo-texte au sein d’un cadre d’apprentissage multimodal, ce qui enrichit la représentation vidéo grâce à une supervision linguistique plus riche sur le plan sémantique et permet à notre modèle de réaliser une reconnaissance d’actions zéro-shot sans nécessiter de données étiquetées supplémentaires ni d’ajustement de paramètres. En outre, afin de pallier le manque de libellés textuels et d’exploiter efficacement les vastes quantités de données disponibles sur le web, nous proposons un nouveau paradigme fondé sur ce cadre d’apprentissage multimodal pour la reconnaissance d’actions, que nous désignons sous le nom de « pré-entraînement, prompt et ajustement fin ». Ce paradigme commence par l’apprentissage de représentations puissantes à partir d’un pré-entraînement sur d’importants volumes de données web image-texte ou vidéo-texte. Ensuite, il transforme la tâche de reconnaissance d’actions en un problème proche du pré-entraînement grâce à une ingénierie de prompts. Enfin, il effectue un ajustement fin en boucle complète sur les jeux de données cibles afin d’obtenir de fortes performances. Nous présentons une implémentation concrète de ce nouveau paradigme, appelée ActionCLIP, qui possède non seulement une capacité supérieure et flexible de transfert zéro-shot ou peu-shot, mais atteint également des performances de haut niveau sur les tâches générales de reconnaissance d’actions, avec une précision top-1 de 83,8 % sur Kinetics-400 en utilisant un ViT-B/16 comme architecture principale. Le code est disponible à l’adresse suivante : https://github.com/sallymmx/ActionCLIP.git