11日前

InternLM-XComposer2：視覚言語大規模モデルにおける自由形式のテキスト・画像合成と理解の習得

Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang

論文の詳細を見る

InternLM-XComposer2：視覚言語大規模モデルにおける自由形式のテキスト・画像合成と理解の習得

要約

InternLM-XComposer2を紹介します。これは、自由な形式のテキストと画像の組み合わせおよび理解に優れた最先端の視覚言語モデルです。従来の視覚言語理解をはるかに超える本モデルは、アウトライン、詳細なテキスト仕様、参照画像など多様な入力から、テキストと画像が交互に配置されたコンテンツを巧みに生成でき、高度にカスタマイズ可能なコンテンツ制作を実現します。InternLM-XComposer2は、画像トークンにのみ追加のLoRAパラメータを適用する「部分的LoRA（Partial LoRA: PLoRA）」アプローチを提案しており、事前学習済み言語知識の整合性を保ちつつ、正確な視覚理解と文学的なテキスト構成の両立を図っています。実験結果によれば、InternLM2-7Bを基盤とするInternLM-XComposer2は、高品質な長文マルチモーダルコンテンツの生成において優れた性能を発揮し、さまざまなベンチマークにおいて顕著な視覚言語理解能力を示しています。特に、既存のマルチモーダルモデルを大きく上回るだけでなく、一部の評価項目ではGPT-4VやGemini Proと同等、あるいはそれを上回る成果を達成しています。これにより、本モデルがマルチモーダル理解分野において極めて高い実力を有していることが示されています。7Bパラメータを有するInternLM-XComposer2モデルシリーズは、GitHubにて公開されており、URLは https://github.com/InternLM/InternLM-XComposer です。