HyperAIHyperAI

Command Palette

Search for a command to run...

Kosmos-2 : Ancrage des grands modèles de langage multimodaux au monde

Zhiliang Peng, * Wenhui Wang, * Li Dong, * Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei†

Résumé

Nous présentons Kosmos-2, un Modèle Linguistique Multimodal de Grande Échelle (MLLM), qui permet de nouvelles capacités de perception des descriptions d'objets (par exemple, des boîtes englobantes) et d'ancrage du texte au monde visuel. Plus précisément, nous représentons les expressions de référence sous forme de liens en Markdown, c'est-à-dire ``segment de texte'', où les descriptions d'objets sont des séquences de jetons de localisation. En association avec des corpus multimodaux, nous construisons des données à grande échelle d'images-textes ancrées (appelées GrIT) pour entraîner le modèle. Outre les capacités existantes des MLLMs (par exemple, la perception des modalités générales, le suivi d'instructions et l'apprentissage en contexte), Kosmos-2 intègre la capacité d'ancrage dans les applications en aval. Nous évaluons Kosmos-2 sur une large gamme de tâches, incluant (i) l'ancrage multimodal, tel que la compréhension des expressions de référence et l'ancrage de phrases, (ii) la référence multimodale, telle que la génération d'expressions de référence, (iii) les tâches perception-langage, et (iv) la compréhension et la génération du langage. Ce travail pose les bases du développement de l'IA Embodied et éclaire la grande convergence du langage, de la perception multimodale, de l'action et du modélisation du monde, ce qui constitue une étape clé vers l'intelligence artificielle générale. Le code source et les modèles préentraînés sont disponibles à l'adresse https://aka.ms/kosmos-2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp