HyperAI
il y a 19 heures

MoCa : Formation continue modale améliore les plongements multimodaux bidirectionnels

Haonan Chen, Hong Liu, Yuping Luo, Liang Wang, Nan Yang, Furu Wei, Zhicheng Dou
MoCa : Formation continue modale améliore les plongements multimodaux bidirectionnels
Résumé

Les modèles d'embedding multimodaux, construits sur des modèles de vision-langue causaux (VLMs), ont montré leur potentiel dans diverses tâches. Cependant, les approches actuelles font face à trois limitations majeures : l'utilisation de l'attention causale dans les troncs communs des VLMs n'est pas optimale pour les tâches d'embedding ; des problèmes de scalabilité dus à la dépendance envers des données étiquetées de haute qualité pour l'apprentissage par contraste ; et une diversité limitée dans les objectifs d'entraînement et les données. Pour remédier à ces limitations, nous proposons MoCa, un cadre en deux étapes visant à transformer des VLMs pré-entraînés en modèles d'embedding multimodaux bidirectionnels efficaces. La première étape, le pré-entraînement continu adapté aux modalités, introduit un objectif de reconstruction conjointe qui débruite simultanément des entrées textuelles et visuelles entrelacées, améliorant ainsi la prise en compte du contexte bidirectionnel. La deuxième étape, le calibrage fin contrastif hétérogène, exploite des données multimodales variées et sémantiquement riches au-delà des simples paires image-légende pour renforcer la généralisation et l'alignement. Notre méthode répond aux limitations mentionnées en introduisant l'attention bidirectionnelle par le biais du pré-entraînement continu, en évoluant efficacement avec des jeux de données massifs non étiquetés grâce aux objectifs de reconstruction conjointe, et en utilisant des données multimodales diverses pour une meilleure robustesse des représentations. Les expériences montrent que MoCa améliore constamment les performances sur les benchmarks MMEB et ViDoRe-v2, atteignant de nouveaux résultats d'état de l'art, et présente une forte scalabilité en fonction de la taille du modèle et des données d'entraînement sur MMEB.