Extension des modèles préentraînés Langage-Image pour la reconnaissance vidéo générale

Le préentraînement contrastif langage-image a démontré un succès remarquable dans l'apprentissage de représentations conjointes visuelles-textuelles à partir de données à l'échelle du web, illustrant une capacité exceptionnelle de généralisation « zéro-shot » pour diverses tâches d'image. Toutefois, la manière dont de telles méthodes de préentraînement langage-image peuvent être efficacement étendues au domaine vidéo reste un problème ouvert. Dans ce travail, nous proposons une approche simple mais efficace qui adapte directement les modèles langage-image préentraînés à la reconnaissance vidéo, sans avoir à préentraîner un nouveau modèle depuis le début. Plus précisément, afin de capturer les dépendances à longue portée entre les cadres le long de la dimension temporelle, nous introduisons un mécanisme d'attention entre cadres qui échange explicitement des informations entre les cadres. Ce module est léger et peut être intégré de manière transparente aux modèles langage-image préentraînés. En outre, nous proposons un schéma de « prompt » spécifique au vidéo, qui exploite les informations contenues dans les vidéos pour générer des prompts textuels discriminants. Des expériences étendues démontrent que notre approche est efficace et généralisable à différents scénarios de reconnaissance vidéo. En particulier, dans un cadre entièrement supervisé, notre méthode atteint une précision top-1 de 87,1 % sur Kinetics-400, tout en utilisant 12 fois moins d’opérations flottantes (FLOPs) que Swin-L et ViViT-H. Dans les expériences « zéro-shot », elle dépasse les méthodes de pointe actuelles de +7,6 % et +14,9 % en précision top-1 selon deux protocoles populaires. Dans des scénarios à peu de données, elle surpasse les meilleures méthodes précédentes de +32,1 % et +23,1 % lorsque les données étiquetées sont extrêmement limitées. Le code et les modèles sont disponibles à l’adresse suivante : https://aka.ms/X-CLIP