2ヶ月前

InternLM-XComposer-2.5: 多機能な大規模ビジョン言語モデル 長文入出力をサポート

Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
InternLM-XComposer-2.5: 多機能な大規模ビジョン言語モデル
  長文入出力をサポート
要約

私たちは、多様なテキスト-画像理解と構成アプリケーションに優れた、長文脈入出力をサポートする汎用的な大規模ビジョン言語モデルであるInternLM-XComposer-2.5 (IXC-2.5) を紹介します。IXC-2.5 は、7BのLLMバックエンドを用いてGPT-4Vレベルの能力を達成しています。24Kの交互に配置された画像-テキストコンテクストで訓練され、RoPE 外挿により96Kの長文脈へシームレスに拡張可能です。この長文脈機能により、IXC-2.5 は広範な入出力コンテクストを必要とするタスクにおいて優れた性能を発揮します。IXC-2.5 は、その前のバージョン2.0と比較して、ビジョン言語理解において3つの主要なアップグレードが行われています。(1) 超高解像度理解、(2) 細かい粒度のビデオ理解、(3) 複数ターン複数画像対話です。理解機能だけでなく、追加のLoRAパラメータを使用してテキスト-画像構成を行う2つの魅力的なアプリケーションにも拡張されています。(1) ウェブページ作成、(2) 高品質なテキスト-画像記事の構成です。IXC-2.5 は28のベンチマークで評価され、既存のオープンソース最先端モデルを16のベンチマークで上回っています。また、16 の主要タスクにおいて GPT-4V および Gemini Pro を凌駕または同等以上の性能を示しています。InternLM-XComposer-2.5 は公開されており、以下のURLからアクセスできます: https://github.com/InternLM/InternLM-XComposer。

InternLM-XComposer-2.5: 多機能な大規模ビジョン言語モデル 長文入出力をサポート | 最新論文 | HyperAI超神経