HyperAIHyperAI

Command Palette

Search for a command to run...

OST : Affinement des connaissances textuelles avec un descripteur spatio-temporel optimal pour la reconnaissance vidéo générale

Tongjia Chen Hongshan Yu Zhengeng Yang Zechuan Li Wei Sun Chen Chen

Résumé

En raison de la nature très consommatrice de ressources de l'entraînement des modèles vision-langage sur des données vidéo étendues, la plupart des études se sont concentrées sur l'adaptation de modèles pré-entraînés image-langage au domaine vidéo. Les pipelines dominants proposent de traiter les disparités visuelles avec des apprenants temporels supplémentaires, tout en négligeant les importantes disparités entre les récits descriptifs à l'échelle du web et les noms concis des catégories d'action, ce qui conduit à un espace sémantique moins distinct et à des limitations potentielles de performance. Dans cette étude, nous privilégions le raffinement des connaissances textuelles pour faciliter la reconnaissance vidéo généralisable. Pour remédier aux limitations de l'espace sémantique moins distinct des noms de catégories, nous sollicitons un grand modèle linguistique (LLM) pour enrichir les noms des classes d'action en Descripteurs Spatio-Temporels, ainsi comblant la disparité textuelle et servant de base de connaissances pour une reconnaissance générale. De plus, afin d'attribuer les meilleurs descripteurs à différentes instances vidéo, nous proposons le Solveur de Descripteurs Optimaux, formulant le problème de reconnaissance vidéo comme la résolution d'un flux d'appariement optimal entre les représentations au niveau des images et les descripteurs. Des évaluations exhaustives dans le cadre de la reconnaissance vidéo sans supervision, avec peu de supervision et entièrement supervisée mettent en lumière l'efficacité de notre approche. Notre meilleur modèle atteint une précision sans supervision d'état de l'art de 75,1 % sur Kinetics-600.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp