il y a 2 mois

VicTR : Représentations textuelles conditionnées par la vidéo pour la reconnaissance d'activités

Kumara Kahatapitiya; Anurag Arnab; Arsha Nagrani; Michael S. Ryoo

Résumé

Les modèles Vision-Langage (VLMs) ont excellemment performé dans le domaine des images – en particulier dans les configurations à zéro-shot – grâce à la disponibilité de vastes données d'entraînement préalable (c'est-à-dire, des échantillons d'images et de texte appariés). Cependant, pour les vidéos, de telles données appariées ne sont pas aussi abondantes. Par conséquent, les VLMs vidéo sont généralement conçus en adaptant des VLMs d'images préentraînés au domaine vidéo, plutôt que d'être entraînés à partir de zéro. Toutes ces méthodes reposent sur l'augmentation des plongements visuels avec des informations temporelles (c'est-à-dire, image $\rightarrow$ vidéo), en conservant souvent les plongements textuels inchangés ou même en les abandonnant. Dans cet article, nous soutenons le contraire : qu'il est possible de concevoir de meilleurs VLMs vidéo en se concentrant davantage sur l'augmentation du texte plutôt que sur l'information visuelle. Plus précisément, nous introduisons les Représentations Textuelles Conditionnées par la Vidéo (VicTR) : une forme de plongements textuels optimisés par rapport aux plongements visuels, créant un espace latent contrastif plus flexible. Notre modèle peut également tirer parti des informations sémantiques librement disponibles sous forme de texte auxiliaire ancré visuellement (par exemple, des informations sur les objets ou les scènes). Nous évaluons notre modèle sur plusieurs benchmarks de reconnaissance d'activités, y compris ceux à faible-shot et à zéro-shot (HMDB-51, UCF-101), ainsi que ceux de courte durée (Kinetics-400) et de longue durée (Charades), montrant une performance robuste parmi les VLMs vidéo.