HyperAIHyperAI
il y a 7 jours

Vers une adaptation rapide de modèles préentraînés par contraste pour la recherche vidéo-langage multicanal

Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang
Vers une adaptation rapide de modèles préentraînés par contraste pour la recherche vidéo-langage multicanal
Résumé

La recherche vidéo-langage multi-canal exige que les modèles comprennent des informations provenant de différentes modalités (par exemple, vidéo + question, vidéo + parole) afin de corrélater correctement une vidéo avec une réponse ou une requête textuelle. Heureusement, les modèles multimodaux contrastifs se sont révélés particulièrement efficaces pour aligner des entités visuelles (images, vidéos) et du texte, comme CLIP ; les modèles contrastifs textuels ont également fait l’objet d’études approfondies récemment en raison de leur capacité remarquable à produire des embeddings de phrases discriminants, comme SimCSE. Toutefois, il n’existe pas encore de méthode claire et rapide pour adapter ces deux approches à la recherche vidéo-langage multi-canal, notamment dans un contexte de données et de ressources limitées. Dans ce travail, nous définissons un espace de conception de modèles fondé sur deux axes : la manière de représenter les vidéos, et la manière de fusionner les informations vidéo et textuelles. À partir d’une catégorisation des méthodes récentes, nous examinons les options pour représenter les vidéos par des vecteurs de caractéristiques continus ou par des jetons textuels discrets ; quant à la fusion, nous explorons l’utilisation d’un transformer multimodal ou d’un modèle pré-entraîné contrastif sur le texte. Nous évaluons de manière exhaustive les quatre combinaisons sur cinq jeux de données vidéo-langage. Nous constatons de manière surprenante que la combinaison de jetons textuels discrets avec un modèle pré-entraîné contrastif sur le texte obtient les meilleurs résultats, dépassant même les états de l’art sur les jeux de données iVQA et How2QA, sans nécessiter d’entraînement supplémentaire sur des millions de paires vidéo-texte. Une analyse approfondie révèle que cela s’explique par le fait que la représentation des vidéos sous forme de jetons textuels permet de capturer efficacement les informations visuelles essentielles, tandis que ces jetons s’alignent naturellement avec les modèles textuels, qui deviennent des rétrospecteurs puissants après un pré-entraînement contrastif. Toutes ces analyses empiriques établissent une base solide pour les recherches futures en intelligence multimodale abordable et évolutif.

Vers une adaptation rapide de modèles préentraînés par contraste pour la recherche vidéo-langage multicanal | Articles de recherche récents | HyperAI