HyperAIHyperAI

Command Palette

Search for a command to run...

InternLM-XComposer-2.5 : un modèle de vision et de langage massif polyvalent prenant en charge les entrées et sorties à longue portée

Résumé

Nous présentons InternLM-XComposer-2.5 (IXC-2.5), un modèle de langage-vision à grande échelle aux capacités polyvalentes, supportant des entrées et sorties à longue portée contextuelle. IXC-2.5 se distingue dans diverses tâches de compréhension et de composition textes-images, atteignant des performances équivalentes à celles de GPT-4V avec un backend de modèle de langage de seulement 7 milliards de paramètres (7B LLM). Entraîné sur 24 000 contextes intercalés texte-image, il peut être étendu de manière fluide à des contextes de 96 000 tokens grâce à une extrapolation RoPE (Rotary Position Embedding). Cette capacité à gérer de longs contextes lui permet de s’illustrer particulièrement bien dans des tâches exigeant des entrées et sorties complexes et étendues. Par rapport à sa version précédente, IXC-2.0, InternLM-XComposer-2.5 intègre trois améliorations majeures en matière de compréhension langage-vision : (1) compréhension à très haute résolution, (2) compréhension fine des vidéos, et (3) dialogues multi-tours à plusieurs images. En outre, au-delà de la compréhension, IXC-2.5 s’élargit à deux applications prometteuses basées sur l’ajout de paramètres LoRA (Low-Rank Adaptation) pour la composition texte-image : (1) création de pages web et (2) rédaction d’articles texte-image de haute qualité. IXC-2.5 a été évalué sur 28 benchmarks, dépassant les modèles open-source les plus avancés existants sur 16 d’entre eux. Il surpasse également ou se rapproche étroitement de GPT-4V et de Gemini Pro sur 16 tâches clés. Le modèle InternLM-XComposer-2.5 est désormais disponible publiquement à l’adresse suivante : https://github.com/InternLM/InternLM-XComposer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
InternLM-XComposer-2.5 : un modèle de vision et de langage massif polyvalent prenant en charge les entrées et sorties à longue portée | Articles | HyperAI