HyperAIHyperAI
il y a 17 jours

COTS : Modèle pré-entraîné vision-langage à deux flux collaboratifs pour la recherche multimodale

Haoyu Lu, Nanyi Fei, Yuqi Huo, Yizhao Gao, Zhiwu Lu, Ji-Rong Wen
COTS : Modèle pré-entraîné vision-langage à deux flux collaboratifs pour la recherche multimodale
Résumé

La pré-formation à grande échelle en flux unique a démontré des performances remarquables dans la recherche d’images et de textes. Malheureusement, elle souffre d’une faible efficacité d’inférence en raison de couches d’attention très lourdes. Récemment, des méthodes à deux flux telles que CLIP et ALIGN, offrant une efficacité d’inférence élevée, ont également montré des performances prometteuses, mais elles ne prennent en compte que l’alignement au niveau des instances entre les deux flux (laissant ainsi une marge d’amélioration). Pour surmonter ces limites, nous proposons un nouveau modèle de pré-formation vision-langage à deux flux collaboratifs, appelé COTS, pour la recherche image-texte, en renforçant les interactions entre modalités. En plus de l’alignement au niveau des instances via l’apprentissage contrastif par momentum, nous introduisons deux niveaux supplémentaires d’interactions entre modalités dans notre modèle COTS : (1) interaction au niveau des tokens — une objectif d’apprentissage de modélisation vision-langage masquée (MVLM) est conçu sans recourir à un module de réseau inter-flux, où un autoencodeur variationnel est appliqué au encodeur visuel afin de générer des tokens visuels pour chaque image ; (2) interaction au niveau des tâches — un objectif d’alignement KL est défini entre les tâches de recherche texte- vers-image et image- vers-texte, où la distribution de probabilité de chaque tâche est calculée à partir des files d’attente négatives utilisées dans l’apprentissage contrastif par momentum. Dans un cadre de comparaison équitable, notre modèle COTS atteint les meilleures performances parmi toutes les méthodes à deux flux, tout en offrant des performances comparables (mais avec une inférence 10 800 fois plus rapide) aux méthodes à flux unique les plus récentes. De manière importante, notre COTS est également applicable à la recherche texte-vidéo, où il établit un nouveau record d’état de l’art sur le jeu de données largement utilisé MSR-VTT.

COTS : Modèle pré-entraîné vision-langage à deux flux collaboratifs pour la recherche multimodale | Articles de recherche récents | HyperAI