il y a 3 mois

Modélisation temporelle implicite avec alignement apprentissable pour la reconnaissance vidéo

Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu, Yu-Gang Jiang

Résumé

Le préentraînement contrastif image-langage (CLIP) a démontré un succès remarquable dans de nombreuses tâches d’image. Toutefois, la question de l’extension de CLIP par un modèle temporel efficace reste un problème ouvert et crucial. Les approches existantes basées sur une modélisation spatiale-temporelle factorisée ou conjointe impliquent un compromis entre efficacité et performance. Bien que la modélisation de l’information temporelle via des « tubes » directs soit largement adoptée dans la littérature, nous constatons que l’alignement simple des cadres fournit déjà une base suffisante sans nécessiter d’attention temporelle. À cet effet, dans cet article, nous proposons une nouvelle méthode, l’alignement implicite apprenable (ILA), qui réduit considérablement l’effort de modélisation temporelle tout en atteignant des performances exceptionnelles. Plus précisément, pour une paire de cadres, un point interactif est prédit dans chaque cadre, servant de région riche en information mutuelle. En renforçant les caractéristiques autour de ce point interactif, les deux cadres sont implicitement alignés. Les caractéristiques ainsi alignées sont ensuite agrégées en un seul jeton, utilisé par la suite dans l’attention auto-épistémique spatiale. Notre méthode permet d’éliminer l’attention auto-épistémique temporelle coûteuse ou insuffisante dans les vidéos. Des expériences étendues sur plusieurs benchmarks démontrent l’efficacité et la généralité de notre module. En particulier, la méthode ILA atteint une précision top-1 de 88,7 % sur Kinetics-400, avec bien moins de FLOPs que Swin-L et ViViT-H. Le code est disponible à l’adresse suivante : https://github.com/Francis-Rings/ILA.