il y a 8 mois

Résumé

En raison de la nature très consommatrice de ressources de l'entraînement des modèles vision-langage sur des données vidéo étendues, la plupart des études se sont concentrées sur l'adaptation de modèles pré-entraînés image-langage au domaine vidéo. Les pipelines dominants proposent de traiter les disparités visuelles avec des apprenants temporels supplémentaires, tout en négligeant les importantes disparités entre les récits descriptifs à l'échelle du web et les noms concis des catégories d'action, ce qui conduit à un espace sémantique moins distinct et à des limitations potentielles de performance. Dans cette étude, nous privilégions le raffinement des connaissances textuelles pour faciliter la reconnaissance vidéo généralisable. Pour remédier aux limitations de l'espace sémantique moins distinct des noms de catégories, nous sollicitons un grand modèle linguistique (LLM) pour enrichir les noms des classes d'action en Descripteurs Spatio-Temporels, ainsi comblant la disparité textuelle et servant de base de connaissances pour une reconnaissance générale. De plus, afin d'attribuer les meilleurs descripteurs à différentes instances vidéo, nous proposons le Solveur de Descripteurs Optimaux, formulant le problème de reconnaissance vidéo comme la résolution d'un flux d'appariement optimal entre les représentations au niveau des images et les descripteurs. Des évaluations exhaustives dans le cadre de la reconnaissance vidéo sans supervision, avec peu de supervision et entièrement supervisée mettent en lumière l'efficacité de notre approche. Notre meilleur modèle atteint une précision sans supervision d'état de l'art de 75,1 % sur Kinetics-600.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Reconnaissance D'action

Multimodal

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Tongjia Chen Hongshan Yu Zhengeng Yang Zechuan Li Wei Sun Chen Chen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Reconnaissance D'action

Multimodal

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Tongjia Chen Hongshan Yu Zhengeng Yang Zechuan Li Wei Sun Chen Chen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

OST : Affinement des connaissances textuelles avec un descripteur spatio-temporel optimal pour la reconnaissance vidéo générale | Articles | HyperAI

Command Palette

OST : Affinement des connaissances textuelles avec un descripteur spatio-temporel optimal pour la reconnaissance vidéo générale

Tongjia Chen Hongshan Yu Zhengeng Yang Zechuan Li Wei Sun Chen Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

OST : Affinement des connaissances textuelles avec un descripteur spatio-temporel optimal pour la reconnaissance vidéo générale

Tongjia Chen Hongshan Yu Zhengeng Yang Zechuan Li Wei Sun Chen Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

OST : Affinement des connaissances textuelles avec un descripteur spatio-temporel optimal pour la reconnaissance vidéo générale

Tongjia Chen Hongshan Yu Zhengeng Yang Zechuan Li Wei Sun Chen Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters