HyperAIHyperAI
il y a 7 jours

Clover : Vers un modèle unifié d'alignement et de fusion vidéo-langage

Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji
Clover : Vers un modèle unifié d'alignement et de fusion vidéo-langage
Résumé

La construction d’un modèle universel vidéo-langage capable de résoudre diverses tâches de compréhension vidéo (par exemple, recherche vidéo-texte, réponse à des questions sur des vidéos) constitue un défi ouvert dans le domaine de l’apprentissage automatique. À cette fin, la plupart des travaux récents construisent leurs modèles en empilant des encodeurs de caractéristiques unimodaux et multimodaux, puis les entraînent à l’aide de tâches prétextes contrastives par paires. Bien que ces approches offrent une généralité attractive, les modèles résultants doivent souvent compromettre entre efficacité et performance. En effet, ils adoptent généralement des architectures différentes pour traiter des tâches downstream variées. Nous constatons que cette limitation provient du fait que l’entraînement par paires ne permet pas une bonne alignement et fusion des caractéristiques issues de modalités différentes. Nous proposons donc Clover—une méthode pré-entraînement vidéo-langage corrélée—visant à concevoir un modèle universel vidéo-langage capable de résoudre plusieurs tâches de compréhension vidéo sans compromis sur la performance ni l’efficacité. Clover améliore l’alignement et la fusion des caractéristiques multimodales grâce à une nouvelle tâche de pré-entraînement à trois modalités. En outre, nous proposons d’approfondir cet alignement en intégrant l’apprentissage à partir d’échantillons sémantiquement masqués et une nouvelle fonction de perte de classement par paires. Clover établit de nouveaux états de l’art sur plusieurs tâches downstream, incluant trois tâches de recherche pour les scénarios zero-shot et fine-tuning, ainsi que huit tâches de réponse à des questions sur des vidéos. Le code source et les modèles pré-entraînés seront publiés sur : \url{https://github.com/LeeYN-43/Clover}.