HyperAIHyperAI

Command Palette

Search for a command to run...

Extension des modèles préentraînés Langage-Image pour la reconnaissance vidéo générale

Bolin Ni Houwen Peng Minghao Chen Songyang Zhang Gaofeng Meng Jianlong Fu Shiming Xiang Haibin Ling

Résumé

Le préentraînement contrastif langage-image a démontré un succès remarquable dans l'apprentissage de représentations conjointes visuelles-textuelles à partir de données à l'échelle du web, illustrant une capacité exceptionnelle de généralisation « zéro-shot » pour diverses tâches d'image. Toutefois, la manière dont de telles méthodes de préentraînement langage-image peuvent être efficacement étendues au domaine vidéo reste un problème ouvert. Dans ce travail, nous proposons une approche simple mais efficace qui adapte directement les modèles langage-image préentraînés à la reconnaissance vidéo, sans avoir à préentraîner un nouveau modèle depuis le début. Plus précisément, afin de capturer les dépendances à longue portée entre les cadres le long de la dimension temporelle, nous introduisons un mécanisme d'attention entre cadres qui échange explicitement des informations entre les cadres. Ce module est léger et peut être intégré de manière transparente aux modèles langage-image préentraînés. En outre, nous proposons un schéma de « prompt » spécifique au vidéo, qui exploite les informations contenues dans les vidéos pour générer des prompts textuels discriminants. Des expériences étendues démontrent que notre approche est efficace et généralisable à différents scénarios de reconnaissance vidéo. En particulier, dans un cadre entièrement supervisé, notre méthode atteint une précision top-1 de 87,1 % sur Kinetics-400, tout en utilisant 12 fois moins d’opérations flottantes (FLOPs) que Swin-L et ViViT-H. Dans les expériences « zéro-shot », elle dépasse les méthodes de pointe actuelles de +7,6 % et +14,9 % en précision top-1 selon deux protocoles populaires. Dans des scénarios à peu de données, elle surpasse les meilleures méthodes précédentes de +32,1 % et +23,1 % lorsque les données étiquetées sont extrêmement limitées. Le code et les modèles sont disponibles à l’adresse suivante : https://aka.ms/X-CLIP


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp