Exploration bidirectionnelle de connaissances intermodales pour la reconnaissance vidéo avec des modèles pré-entraînés vision-langage

Les modèles de vision-langue (VLMs) pré-entraînés sur des paires d'images-texte à grande échelle ont démontré une transférabilité impressionnante dans diverses tâches visuelles. Le transfert de connaissances provenant de ces puissants VLMs est une direction prometteuse pour la construction de modèles efficaces de reconnaissance vidéo. Cependant, les recherches actuelles dans ce domaine restent encore limitées. Nous pensons que la plus grande valeur des VLMs pré-entraînés réside dans l'établissement d'un pont entre les domaines visuel et textuel. Dans cet article, nous proposons un cadre novateur appelé BIKE, qui utilise ce pont intermodale pour explorer la connaissance bidirectionnelle : i) Nous introduisons le mécanisme d'Association d'Attributs Vidéo, qui exploite la connaissance Vidéo-vers-Texte pour générer des attributs textuels auxiliaires complémentaires à la reconnaissance vidéo. ii) Nous présentons également un mécanisme de Détection de Concepts Temporels qui utilise l'expertise Texte-vers-Vidéo pour capturer la saillance temporelle sans paramètre, améliorant ainsi la représentation vidéo. Des études approfondies sur six ensembles de données vidéo populaires, dont Kinetics-400 & 600, UCF-101, HMDB-51, ActivityNet et Charades, montrent que notre méthode atteint des performances de pointe dans divers scénarios de reconnaissance, tels que la reconnaissance générale, zéro-shot et few-shot. Notre meilleur modèle atteint une précision de pointe de 88,6 % sur le difficile ensemble de données Kinetics-400 en utilisant le modèle CLIP publié. Le code est disponible à l'adresse https://github.com/whwu95/BIKE .