HyperAIHyperAI
il y a 11 jours

Revisiter le classificateur : transfert de modèles vision-langage pour la reconnaissance vidéo

Wenhao Wu, Zhun Sun, Wanli Ouyang
Revisiter le classificateur : transfert de modèles vision-langage pour la reconnaissance vidéo
Résumé

Le transfert de connaissances à partir de modèles profonds pré-entraînés non spécifiques à une tâche vers des tâches ultérieures constitue un sujet fondamental dans la recherche en vision par ordinateur. Parallèlement à l’augmentation de la capacité de calcul, nous disposons désormais de modèles pré-entraînés vision-langage à grande échelle, tant en termes d’architecture de modèle qu’en volume de données. Dans cette étude, nous nous concentrons sur le transfert de connaissances pour les tâches de classification vidéo. Les méthodes classiques initialisent aléatoirement la tête de classificateur linéaire pour la reconnaissance visuelle, tout en laissant inexplorée l’utilisation du encodeur de texte dans les tâches visuelles ultérieures. Dans cet article, nous réévaluons le rôle du classificateur linéaire et le remplaçons par une connaissance issue du modèle pré-entraîné, tirée de manière différente. Nous exploitons un modèle linguistique pré-entraîné de qualité pour générer des cibles sémantiques pertinentes, permettant un apprentissage par transfert plus efficace. L’étude expérimentale montre que notre méthode améliore à la fois la performance et la vitesse d’entraînement de la classification vidéo, avec une modification négligeable du modèle. Notre paradigme simple mais efficace atteint des performances de pointe et une entraînement efficace dans divers scénarios de reconnaissance vidéo, à savoir en situation zéro-shot, few-shot et généralisée. En particulier, notre approche atteint une précision de pointe de 87,8 % sur Kinetics-400, et dépasse les méthodes antérieures de 20 à 50 points de précision absolue au top-1 dans les configurations zéro-shot et few-shot sur cinq jeux de données vidéo populaires. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/whwu95/Text4Vis.

Revisiter le classificateur : transfert de modèles vision-langage pour la reconnaissance vidéo | Articles de recherche récents | HyperAI