HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation temporelle implicite avec alignement apprentissable pour la reconnaissance vidéo

Shuyuan Tu Qi Dai Zuxuan Wu Zhi-Qi Cheng Han Hu Yu-Gang Jiang

Résumé

Le préentraînement contrastif image-langage (CLIP) a démontré un succès remarquable dans de nombreuses tâches d’image. Toutefois, la question de l’extension de CLIP par un modèle temporel efficace reste un problème ouvert et crucial. Les approches existantes basées sur une modélisation spatiale-temporelle factorisée ou conjointe impliquent un compromis entre efficacité et performance. Bien que la modélisation de l’information temporelle via des « tubes » directs soit largement adoptée dans la littérature, nous constatons que l’alignement simple des cadres fournit déjà une base suffisante sans nécessiter d’attention temporelle. À cet effet, dans cet article, nous proposons une nouvelle méthode, l’alignement implicite apprenable (ILA), qui réduit considérablement l’effort de modélisation temporelle tout en atteignant des performances exceptionnelles. Plus précisément, pour une paire de cadres, un point interactif est prédit dans chaque cadre, servant de région riche en information mutuelle. En renforçant les caractéristiques autour de ce point interactif, les deux cadres sont implicitement alignés. Les caractéristiques ainsi alignées sont ensuite agrégées en un seul jeton, utilisé par la suite dans l’attention auto-épistémique spatiale. Notre méthode permet d’éliminer l’attention auto-épistémique temporelle coûteuse ou insuffisante dans les vidéos. Des expériences étendues sur plusieurs benchmarks démontrent l’efficacité et la généralité de notre module. En particulier, la méthode ILA atteint une précision top-1 de 88,7 % sur Kinetics-400, avec bien moins de FLOPs que Swin-L et ViViT-H. Le code est disponible à l’adresse suivante : https://github.com/Francis-Rings/ILA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp