il y a 8 mois

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Résumé

Nous proposons InternLM-XComposer, un grand modèle de vision-langage qui permet une compréhension et une composition avancées d'images et de texte. L'innovation de notre modèle est mise en évidence par trois propriétés attractives : 1) Composition Texte-Image Intercalaire : InternLM-XComposer peut générer sans effort des articles cohérents et contextuels qui intègrent les images de manière fluide, offrant une expérience de lecture plus engageante et immersive. Il suffit de fournir une instruction d'écriture, et notre système générera le manuscrit correspondant. Il peut intelligemment identifier les zones du texte où les images amélioreraient le contenu et insérer automatiquement les candidats visuels les plus appropriés.2) Compréhension avec des Connaissances Multilingues Riches : La compréhension texte-image est renforcée par l'entraînement sur une base de données multimodale multilingue étendue, utilisant des stratégies soigneusement élaborées, ce qui permet une compréhension profonde du contenu visuel.3) Performance à la Pointe de la Technologie : Notre modèle obtient régulièrement des résultats à la pointe de la technologie sur diverses benchmarks principales pour les modèles fondamentaux de vision-langage, notamment le MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (Chinese Cultural Benchmark), QBench et Tiny LVLM. En raison de l'absence de métriques établies pour évaluer quantitativement la composition texte-image, nous avons élaboré une procédure d'évaluation robuste comprenant à la fois des évaluations humaines et GPT4-Vision (GPT4-V) pour garantir la fiabilité. Notamment, notre InternLM-XComposer obtient des scores compétitifs en composition texte-image comparables aux solutions publiques, y compris GPT4-V et GPT3.5.Ensemble, InternLM-XComposer fusionne harmonieusement une compréhension avancée du texte et des images ainsi qu'une composition efficace, révolutionnant l'interaction vision-langage et offrant de nouvelles perspectives et opportunités. La série de modèles InternLM-XComposer est disponible au public sur https://github.com/InternLM/InternLM-XComposer.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Réponse À Des Questions Visuelles

Any-to-Any

Multimodal

Tâche

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Réponse À Des Questions Visuelles

Any-to-Any

Multimodal

Tâche

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

InternLM-XComposer : Un grand modèle vision-langue pour la compréhension et la composition avancées de texte et d'image | Articles | HyperAI

Command Palette

InternLM-XComposer : Un grand modèle vision-langue pour la compréhension et la composition avancées de texte et d'image

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

InternLM-XComposer : Un grand modèle vision-langue pour la compréhension et la composition avancées de texte et d'image

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

InternLM-XComposer : Un grand modèle vision-langue pour la compréhension et la composition avancées de texte et d'image

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2