HyperAIHyperAI
il y a 2 mois

VLAB : Amélioration de la pré-formation vidéo-linguistique par l’adaptation et le mélange des caractéristiques

Xingjian He; Sihan Chen; Fan Ma; Zhicheng Huang; Xiaojie Jin; Zikang Liu; Dongmei Fu; Yi Yang; Jing Liu; Jiashi Feng
VLAB : Amélioration de la pré-formation vidéo-linguistique par l’adaptation et le mélange des caractéristiques
Résumé

Les modèles de pré-entraînement par contraste à grande échelle entre images et texte, tels que CLIP, ont démontré leur capacité à apprendre des représentations multimodales de haute qualité. Cependant, les recherches sur l'apprentissage de représentations vidéo-texte pour des tâches multimodales générales basées sur ces caractéristiques puissantes sont limitées. Pour atteindre cet objectif, nous proposons une nouvelle méthode de pré-entraînement vidéo-texte appelée VLAB : Pré-entraînement Vidéo-Langue par Adaptation et Mélange de Caractéristiques (Video Language pre-training by feature Adapting and Blending), qui transfère les représentations CLIP aux tâches de pré-entraînement vidéo et développe des modèles multimodaux unifiés pour une large gamme de tâches vidéo-texte. Plus précisément, VLAB repose sur deux stratégies clés : l'adaptation des caractéristiques et le mélange des caractéristiques. Dans la première stratégie, nous introduisons un nouveau module d'adaptateur vidéo pour remédier à la lacune de CLIP en matière de modélisation de l'information temporelle et étendre les capacités du modèle pour englober à la fois les tâches contrastives et génératives. Dans la seconde stratégie, nous proposons une méthode d'entraînement intégrale qui améliore encore davantage les performances du modèle en exploitant la complémentarité des caractéristiques image et vidéo. Nous validons l'efficacité et la polyvalence de VLAB grâce à des expériences approfondies sur des tâches multimodales vidéo hautement compétitives, notamment la recherche de texte dans les vidéos, la légendage vidéo et le question-réponse sur les vidéos. De manière remarquable, VLAB surpass significativement les méthodes concurrentes et établit de nouveaux records en question-réponse sur les vidéos dans les jeux de données MSRVTT, MSVD et TGIF. Il atteint respectivement une précision de 49,6 %, 61,0 % et 79,0 %. Les codes source et les modèles seront mis à disposition.