HyperAIHyperAI
il y a 9 jours

CenterCLIP : Regroupement de tokens pour une recherche texte-vidéo efficace

Shuai Zhao, Linchao Zhu, Xiaohan Wang, Yi Yang
CenterCLIP : Regroupement de tokens pour une recherche texte-vidéo efficace
Résumé

Récemment, des méthodes de pré-entraînement à grande échelle telles que CLIP ont marqué des progrès significatifs dans le domaine de la recherche multimodale, notamment dans le cadre de la recherche texte-vidéo. Dans CLIP, les transformateurs jouent un rôle fondamental dans la modélisation des relations complexes entre modalités. Toutefois, dans le transformateur visuel de CLIP, le processus essentiel de tokenisation visuelle — qui génère des séquences discrètes de tokens visuels — produit un grand nombre de tokens homogènes en raison de la redondance inhérente aux cadres successifs et similaires présents dans les vidéos. Ce phénomène augmente considérablement les coûts computationnels et entrave le déploiement des modèles de recherche vidéo dans des applications web. Dans cet article, afin de réduire le nombre de tokens redondants dans les vidéos, nous proposons un algorithme de regroupement de tokens par segments multiples, conçu pour identifier les tokens les plus représentatifs tout en éliminant les éléments non essentiels. Étant donné que la redondance des cadres se produit principalement sur des cadres consécutifs, nous divisons les vidéos en plusieurs segments et appliquons un regroupement au niveau des segments. Les tokens centraux issus de chaque segment sont ensuite concaténés pour former une nouvelle séquence, tout en préservant efficacement leurs relations spatio-temporelles initiales. Nous mettons en œuvre deux algorithmes de regroupement afin de trouver efficacement des médoïdes déterministes et de partitionner itérativement les groupes dans un espace de haute dimension. Grâce à cette procédure de regroupement de tokens et de sélection des centres, nous parvenons à réduire significativement les coûts computationnels en éliminant les tokens visuels redondants. Cette approche améliore également l’alignement sémantique au niveau des segments entre les représentations vidéo et textuelles, renforçant ainsi les interactions spatio-temporelles entre les tokens provenant des cadres d’un même segment. Notre méthode, baptisée CenterCLIP, dépasse largement les états de l’art existants sur des benchmarks classiques de recherche texte-vidéo, tout en réduisant de 35 % la consommation mémoire durant l’entraînement et en accélérant la vitesse d’inférence de 14 % dans le meilleur des cas. Le code source est disponible à l’adresse suivante : \href{https://github.com/mzhaoshuai/CenterCLIP}{https://github.com/mzhaoshuai/CenterCLIP}.