HyperAIHyperAI

Command Palette

Search for a command to run...

COSA : Modèle fondamental vision-langage préentraîné par échantillons concaténés

Sihan Chen Xingjian He Handong Li Xiaojie Jin Jiashi Feng Jing Liu

Résumé

En raison de l’échelle limitée et de la qualité insuffisante des corpus d’entraînement vidéo-texte, la plupart des modèles fondamentaux vision-langage s’appuient sur des jeux de données image-texte pour l’entraînement préalable et se concentrent principalement sur la modélisation de représentations sémantiques visuelles, tout en ignorant les représentations sémantiques temporelles et leurs corrélations. Pour remédier à ce problème, nous proposons COSA, un modèle fondamental vision-langage préentraîné par concaténation de samples (COncatenated SAmple). COSA modélise conjointement les contenus visuels et les indices temporels au niveau de l’événement en n’utilisant que des corpus image-texte. Nous y parvenons en concaténant séquentiellement plusieurs paires image-texte comme entrées pour l’entraînement préalable. Cette transformation convertit efficacement les corpus image-texte existants en un corpus pseudo-long-forme vidéo-paragraphe, permettant des transformations scéniques plus riches et une correspondance explicite entre les événements et leurs descriptions. Des expériences étendues démontrent que COSA améliore de manière cohérente les performances sur une large gamme de tâches ultérieures, notamment les tâches vidéo-texte à long et court format, ainsi que les tâches image-texte telles que la recherche, la génération de légendes et la réponse à des questions. Notamment, COSA atteint des résultats de pointe sur diverses benchmarks compétitives. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/TXH-mercury/COSA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp