HyperAIHyperAI

Command Palette

Search for a command to run...

InternLM-XComposer : Un grand modèle vision-langue pour la compréhension et la composition avancées de texte et d'image

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Résumé

Nous proposons InternLM-XComposer, un grand modèle de vision-langage qui permet une compréhension et une composition avancées d'images et de texte. L'innovation de notre modèle est mise en évidence par trois propriétés attractives : 1) Composition Texte-Image Intercalaire : InternLM-XComposer peut générer sans effort des articles cohérents et contextuels qui intègrent les images de manière fluide, offrant une expérience de lecture plus engageante et immersive. Il suffit de fournir une instruction d'écriture, et notre système générera le manuscrit correspondant. Il peut intelligemment identifier les zones du texte où les images amélioreraient le contenu et insérer automatiquement les candidats visuels les plus appropriés.2) Compréhension avec des Connaissances Multilingues Riches : La compréhension texte-image est renforcée par l'entraînement sur une base de données multimodale multilingue étendue, utilisant des stratégies soigneusement élaborées, ce qui permet une compréhension profonde du contenu visuel.3) Performance à la Pointe de la Technologie : Notre modèle obtient régulièrement des résultats à la pointe de la technologie sur diverses benchmarks principales pour les modèles fondamentaux de vision-langage, notamment le MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (Chinese Cultural Benchmark), QBench et Tiny LVLM. En raison de l'absence de métriques établies pour évaluer quantitativement la composition texte-image, nous avons élaboré une procédure d'évaluation robuste comprenant à la fois des évaluations humaines et GPT4-Vision (GPT4-V) pour garantir la fiabilité. Notamment, notre InternLM-XComposer obtient des scores compétitifs en composition texte-image comparables aux solutions publiques, y compris GPT4-V et GPT3.5.Ensemble, InternLM-XComposer fusionne harmonieusement une compréhension avancée du texte et des images ainsi qu'une composition efficace, révolutionnant l'interaction vision-langage et offrant de nouvelles perspectives et opportunités. La série de modèles InternLM-XComposer est disponible au public sur https://github.com/InternLM/InternLM-XComposer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp