Command Palette
Search for a command to run...
InternLM-XComposer-2.5:長文入出力に対応する汎用的大規模視覚言語モデル
InternLM-XComposer-2.5:長文入出力に対応する汎用的大規模視覚言語モデル
概要
本稿では、長文の入出力に対応できる汎用的な大規模視覚言語モデル「InternLM-XComposer-2.5(IXC-2.5)」を紹介する。IXC-2.5は、多様なテキスト・画像理解および生成タスクにおいて優れた性能を発揮し、わずか70億パラメータのLLMバックエンドを用いることでGPT-4Vと同等の能力を達成している。24,000件の交差配置された画像・テキストコンテキストで学習されたIXC-2.5は、RoPEの外挿技術を活用して96,000トークンにまでコンテキスト長を拡張可能である。この長文コンテキスト処理能力により、広範な入出力文脈を要するタスクにおいても優れた性能を発揮する。従来の2.0バージョンと比較して、IXC-2.5は視覚言語理解の観点から以下の3点の主要な進化を遂げている:(1)超高解像度画像理解、(2)細粒度動画理解、(3)複数ラウンド・複数画像対話。また、理解機能に加え、追加のLoRAパラメータを用いてテキスト・画像生成を実現する2つの魅力的な応用も展開している:(1)Webページの作成、(2)高品質なテキスト・画像記事の作成。IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソース最先端モデルを上回っている。さらに、16の主要タスクにおいてGPT-4VやGemini Proを上回るか、それと同等の性能を発揮している。InternLM-XComposer-2.5は、GitHubにて公開されており、URLは https://github.com/InternLM/InternLM-XComposer である。