HyperAIHyperAI

Command Palette

Search for a command to run...

VicTR : Représentations textuelles conditionnées par la vidéo pour la reconnaissance d'activités

Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo

Résumé

Les modèles Vision-Langage (VLMs) ont excellemment performé dans le domaine des images – en particulier dans les configurations à zéro-shot – grâce à la disponibilité de vastes données d'entraînement préalable (c'est-à-dire, des échantillons d'images et de texte appariés). Cependant, pour les vidéos, de telles données appariées ne sont pas aussi abondantes. Par conséquent, les VLMs vidéo sont généralement conçus en adaptant des VLMs d'images préentraînés au domaine vidéo, plutôt que d'être entraînés à partir de zéro. Toutes ces méthodes reposent sur l'augmentation des plongements visuels avec des informations temporelles (c'est-à-dire, image \rightarrow vidéo), en conservant souvent les plongements textuels inchangés ou même en les abandonnant. Dans cet article, nous soutenons le contraire : qu'il est possible de concevoir de meilleurs VLMs vidéo en se concentrant davantage sur l'augmentation du texte plutôt que sur l'information visuelle. Plus précisément, nous introduisons les Représentations Textuelles Conditionnées par la Vidéo (VicTR) : une forme de plongements textuels optimisés par rapport aux plongements visuels, créant un espace latent contrastif plus flexible. Notre modèle peut également tirer parti des informations sémantiques librement disponibles sous forme de texte auxiliaire ancré visuellement (par exemple, des informations sur les objets ou les scènes). Nous évaluons notre modèle sur plusieurs benchmarks de reconnaissance d'activités, y compris ceux à faible-shot et à zéro-shot (HMDB-51, UCF-101), ainsi que ceux de courte durée (Kinetics-400) et de longue durée (Charades), montrant une performance robuste parmi les VLMs vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp