il y a 2 mois

Kosmos-2 : Ancrage des grands modèles de langage multimodaux au monde

Zhiliang Peng; Wenhui Wang; Li Dong; Yaru Hao; Shaohan Huang; Shuming Ma; Furu Wei

Résumé

Nous présentons Kosmos-2, un Modèle Linguistique Multimodal de Grande Échelle (MLLM), qui permet de nouvelles capacités de perception des descriptions d'objets (par exemple, des boîtes englobantes) et d'ancrage du texte au monde visuel. Plus précisément, nous représentons les expressions de référence sous forme de liens en Markdown, c'est-à-dire ``segment de texte'', où les descriptions d'objets sont des séquences de jetons de localisation. En association avec des corpus multimodaux, nous construisons des données à grande échelle d'images-textes ancrées (appelées GrIT) pour entraîner le modèle. Outre les capacités existantes des MLLMs (par exemple, la perception des modalités générales, le suivi d'instructions et l'apprentissage en contexte), Kosmos-2 intègre la capacité d'ancrage dans les applications en aval. Nous évaluons Kosmos-2 sur une large gamme de tâches, incluant (i) l'ancrage multimodal, tel que la compréhension des expressions de référence et l'ancrage de phrases, (ii) la référence multimodale, telle que la génération d'expressions de référence, (iii) les tâches perception-langage, et (iv) la compréhension et la génération du langage. Ce travail pose les bases du développement de l'IA Embodied et éclaire la grande convergence du langage, de la perception multimodale, de l'action et du modélisation du monde, ce qui constitue une étape clé vers l'intelligence artificielle générale. Le code source et les modèles préentraînés sont disponibles à l'adresse https://aka.ms/kosmos-2.