il y a 7 jours

COSA : Modèle fondamental vision-langage préentraîné par échantillons concaténés

Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng, Jing Liu

Résumé

En raison de l’échelle limitée et de la qualité insuffisante des corpus d’entraînement vidéo-texte, la plupart des modèles fondamentaux vision-langage s’appuient sur des jeux de données image-texte pour l’entraînement préalable et se concentrent principalement sur la modélisation de représentations sémantiques visuelles, tout en ignorant les représentations sémantiques temporelles et leurs corrélations. Pour remédier à ce problème, nous proposons COSA, un modèle fondamental vision-langage préentraîné par concaténation de samples (COncatenated SAmple). COSA modélise conjointement les contenus visuels et les indices temporels au niveau de l’événement en n’utilisant que des corpus image-texte. Nous y parvenons en concaténant séquentiellement plusieurs paires image-texte comme entrées pour l’entraînement préalable. Cette transformation convertit efficacement les corpus image-texte existants en un corpus pseudo-long-forme vidéo-paragraphe, permettant des transformations scéniques plus riches et une correspondance explicite entre les événements et leurs descriptions. Des expériences étendues démontrent que COSA améliore de manière cohérente les performances sur une large gamme de tâches ultérieures, notamment les tâches vidéo-texte à long et court format, ainsi que les tâches image-texte telles que la recherche, la génération de légendes et la réponse à des questions. Notamment, COSA atteint des résultats de pointe sur diverses benchmarks compétitives. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/TXH-mercury/COSA.