HyperAIHyperAI
il y a 2 mois

OST : Affinement des connaissances textuelles avec un descripteur spatio-temporel optimal pour la reconnaissance vidéo générale

Tongjia Chen; Hongshan Yu; Zhengeng Yang; Zechuan Li; Wei Sun; Chen Chen
OST : Affinement des connaissances textuelles avec un descripteur spatio-temporel optimal pour la reconnaissance vidéo générale
Résumé

En raison de la nature très consommatrice de ressources de l'entraînement des modèles vision-langage sur des données vidéo étendues, la plupart des études se sont concentrées sur l'adaptation de modèles pré-entraînés image-langage au domaine vidéo. Les pipelines dominants proposent de traiter les disparités visuelles avec des apprenants temporels supplémentaires, tout en négligeant les importantes disparités entre les récits descriptifs à l'échelle du web et les noms concis des catégories d'action, ce qui conduit à un espace sémantique moins distinct et à des limitations potentielles de performance. Dans cette étude, nous privilégions le raffinement des connaissances textuelles pour faciliter la reconnaissance vidéo généralisable. Pour remédier aux limitations de l'espace sémantique moins distinct des noms de catégories, nous sollicitons un grand modèle linguistique (LLM) pour enrichir les noms des classes d'action en Descripteurs Spatio-Temporels, ainsi comblant la disparité textuelle et servant de base de connaissances pour une reconnaissance générale. De plus, afin d'attribuer les meilleurs descripteurs à différentes instances vidéo, nous proposons le Solveur de Descripteurs Optimaux, formulant le problème de reconnaissance vidéo comme la résolution d'un flux d'appariement optimal entre les représentations au niveau des images et les descripteurs. Des évaluations exhaustives dans le cadre de la reconnaissance vidéo sans supervision, avec peu de supervision et entièrement supervisée mettent en lumière l'efficacité de notre approche. Notre meilleur modèle atteint une précision sans supervision d'état de l'art de 75,1 % sur Kinetics-600.

OST : Affinement des connaissances textuelles avec un descripteur spatio-temporel optimal pour la reconnaissance vidéo générale | Articles de recherche récents | HyperAI