InternLM-XComposer: 高度なテキスト-画像理解と構成のためのビジョン言語大規模モデル

我々はInternLM-XComposerを提案します。これは、高度な画像・テキスト理解と構成を可能にする大規模ビジョン言語モデルです。当モデルの革新的な性質は以下の3つの魅力的な特徴によって強調されます:1) 交互テキスト・イメージ構成:InternLM-XComposerは、画像をシームレスに統合した一貫性のあるコンテクスチュアルな記事を容易に生成することができます。これにより、より魅力的で没入感のある読書体験が提供されます。単に書き込み指示を提供するだけで、システムは対応する原稿を生成します。また、テキスト内で画像がコンテンツを向上させる部分を知的に識別し、最も適切な視覚候補を自動的に挿入することができます。2) 豊富な多言語知識に基づく理解:テキスト・イメージ理解は、広範なマルチモーダル多言語データベース上で慎重に設計された戦略で訓練することで強化されています。これにより、ビジュアルコンテンツに対する深い理解が得られます。3) 最先端の性能:当モデルは、ビジョン言語基盤モデルの主要ベンチマークであるMME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (中国文化ベンチマーク), QBench, Tiny LVLMにおいて一貫して最先端の結果を達成しています。テキスト・イメージ構成の定量的な評価指標が確立されていないため、信頼性を確保するために人間評価とGPT4-Vision (GPT4-V)による堅牢な評価手順を開発しました。特に、InternLM-XComposerは公開されているソリューション(GPT4-VやGPT3.5など)と比較して競争力のあるテキスト・イメージ構成スコアを達成しています。総じて、InternLM-XComposerは高度なテキスト・イメージ理解と構成をシームレスに融合し、ビジョン言語相互作用の革命化を目指し、新たな洞察と機会を提供します。InternLM-XComposerモデルシリーズは、https://github.com/InternLM/InternLM-XComposer で公開されています。