Command Palette
Search for a command to run...
Mise à l’échelle de l’apprentissage représentationnel omnicodal centré sur le langage
Chenghao Xiao Hou Pong Chan Hao Zhang Weiwen Xu Mahani Aljunied Yu Rong

Résumé
Les approches récentes de représentation multimodale fondées sur des modèles de langage à grande échelle multimodaux (MLLM) fine-tunés via l’apprentissage contrastif (CL) ont montré des résultats prometteurs, mais les raisons sous-jacentes de leur supériorité restent peu explorées. Ce travail soutient que l’un des avantages essentiels des approches basées sur les MLLM provient d’une alignement croisé implicite acquis durant le pré-entraînement génératif, dans lequel le décodeur de langage apprend à exploiter les signaux multimodaux au sein d’un espace de représentation partagé afin de générer des sorties unimodales. À travers une analyse de l’anisotropie et de la structure de similarité du noyau, nous confirmons empiriquement l’émergence d’un alignement latent au sein des représentations des MLLM, permettant ainsi au CL de servir de phase de raffinement légère. En exploitant cette observation, nous proposons un cadre de représentation omnimodale centré sur le langage, nommé LCO-Emb. Des expériences étendues menées sur divers architectures de base et benchmarks démontrent son efficacité, atteignant des performances de pointe dans toutes les modalités. Par ailleurs, nous identifions une loi d’échelle génération-représentation (GRSL), montrant que les capacités de représentation acquises grâce au raffinement contrastif évoluent positivement en fonction des capacités génératives du MLLM. Cela suggère que l’amélioration des capacités génératives constitue un paradigme efficace pour renforcer la qualité des représentations. Nous fournissons une explication théorique de la GRSL, qui établit formellement un lien entre la qualité générative du MLLM et la borne supérieure de sa performance en représentation, et la validons sur une tâche exigeante et à faible ressource de recherche visuelle-documentaire, indiquant que le pré-entraînement génératif continu avant le CL peut encore renforcer davantage le potentiel des capacités d’embedding d’un modèle. Les codes, modèles et ressources sont disponibles à l’adresse suivante : https://github.com/LCO-Embedding/LCO-Embedding.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.