HyperAIHyperAI
il y a 17 jours

SimVTP : Pré-entraînement vidéo-texte simple avec des autoencodeurs masqués

Yue Ma, Tianyu Yang, Yin Shan, Xiu Li
SimVTP : Pré-entraînement vidéo-texte simple avec des autoencodeurs masqués
Résumé

Cet article présente SimVTP : un cadre de pré-entraînement vidéo-texte simple basé sur des autoencodeurs masqués. Nous masquons aléatoirement des tubes spatio-temporels dans la vidéo d'entrée et des tokens mots dans le texte d'entrée, puis nous les introduisons dans un autoencodeur unifié afin de reconstruire les pixels et mots manquants. SimVTP présente plusieurs propriétés notables : 1) Grâce à l'autoencodeur unifié, SimVTP reconstruit le signal masqué d'une modalité en s'appuyant sur l'autre modalité, ce qui permet d'apprendre implicitement l’alignement intermodale entre les tubes vidéo et les tokens textuels. 2) SimVTP bénéficie d’un taux de masquage vidéo élevé (par exemple, 90 %), en raison de la redondance temporelle des vidéos, tout en nécessitant également un taux de masquage textuel élevé (par exemple, 75 %), bien supérieur à celui de BERT (environ 15 %), pour atteindre des performances optimales. Ceci s’explique par le fait que l’aide apportée par la modalité vidéo réduit la difficulté de la reconstruction du texte, rendant nécessaire un taux de masquage plus élevé afin de conserver un prétexte suffisamment exigeant pour une apprentissage efficace des caractéristiques utiles. 3) L’ajout d’apprentissage contrastif vidéo-texte (VTC) et de correspondance vidéo-texte (VTM), deux stratégies d’apprentissage intermodale couramment utilisées, permet d’améliorer significativement les performances transférables. 4) SimVTP est très efficace en termes de données : par exemple, en s’entraînant uniquement sur 10 % des données de WebVid-2M, SimVTP atteint des résultats remarquables (43,8 R@1) sur MSRVTT, dépassant largement les méthodes les plus récentes de l’état de l’art qui ont été pré-entraînées sur l’ensemble combiné de CC3M et WebVid-2M. Nous avons transféré notre modèle pré-entraîné vers diverses tâches en aval et obtenu des performances supérieures. Les codes et modèles seront publiés à l’adresse suivante : https://github.com/mayuelala/SimVTP.

SimVTP : Pré-entraînement vidéo-texte simple avec des autoencodeurs masqués | Articles de recherche récents | HyperAI