8ヶ月前

マルチモーダル

視覚質問応答

マルチモーダル

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

概要

我々はInternLM-XComposerを提案します。これは、高度な画像・テキスト理解と構成を可能にする大規模ビジョン言語モデルです。当モデルの革新的な性質は以下の3つの魅力的な特徴によって強調されます：1) 交互テキスト・イメージ構成：InternLM-XComposerは、画像をシームレスに統合した一貫性のあるコンテクスチュアルな記事を容易に生成することができます。これにより、より魅力的で没入感のある読書体験が提供されます。単に書き込み指示を提供するだけで、システムは対応する原稿を生成します。また、テキスト内で画像がコンテンツを向上させる部分を知的に識別し、最も適切な視覚候補を自動的に挿入することができます。2) 豊富な多言語知識に基づく理解：テキスト・イメージ理解は、広範なマルチモーダル多言語データベース上で慎重に設計された戦略で訓練することで強化されています。これにより、ビジュアルコンテンツに対する深い理解が得られます。3) 最先端の性能：当モデルは、ビジョン言語基盤モデルの主要ベンチマークであるMME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (中国文化ベンチマーク), QBench, Tiny LVLMにおいて一貫して最先端の結果を達成しています。テキスト・イメージ構成の定量的な評価指標が確立されていないため、信頼性を確保するために人間評価とGPT4-Vision (GPT4-V)による堅牢な評価手順を開発しました。特に、InternLM-XComposerは公開されているソリューション（GPT4-VやGPT3.5など）と比較して競争力のあるテキスト・イメージ構成スコアを達成しています。総じて、InternLM-XComposerは高度なテキスト・イメージ理解と構成をシームレスに融合し、ビジョン言語相互作用の革命化を目指し、新たな洞察と機会を提供します。InternLM-XComposerモデルシリーズは、https://github.com/InternLM/InternLM-XComposer で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

視覚質問応答

マルチモーダル

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

概要

我々はInternLM-XComposerを提案します。これは、高度な画像・テキスト理解と構成を可能にする大規模ビジョン言語モデルです。当モデルの革新的な性質は以下の3つの魅力的な特徴によって強調されます：1) 交互テキスト・イメージ構成：InternLM-XComposerは、画像をシームレスに統合した一貫性のあるコンテクスチュアルな記事を容易に生成することができます。これにより、より魅力的で没入感のある読書体験が提供されます。単に書き込み指示を提供するだけで、システムは対応する原稿を生成します。また、テキスト内で画像がコンテンツを向上させる部分を知的に識別し、最も適切な視覚候補を自動的に挿入することができます。2) 豊富な多言語知識に基づく理解：テキスト・イメージ理解は、広範なマルチモーダル多言語データベース上で慎重に設計された戦略で訓練することで強化されています。これにより、ビジュアルコンテンツに対する深い理解が得られます。3) 最先端の性能：当モデルは、ビジョン言語基盤モデルの主要ベンチマークであるMME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (中国文化ベンチマーク), QBench, Tiny LVLMにおいて一貫して最先端の結果を達成しています。テキスト・イメージ構成の定量的な評価指標が確立されていないため、信頼性を確保するために人間評価とGPT4-Vision (GPT4-V)による堅牢な評価手順を開発しました。特に、InternLM-XComposerは公開されているソリューション（GPT4-VやGPT3.5など）と比較して競争力のあるテキスト・イメージ構成スコアを達成しています。総じて、InternLM-XComposerは高度なテキスト・イメージ理解と構成をシームレスに融合し、ビジョン言語相互作用の革命化を目指し、新たな洞察と機会を提供します。InternLM-XComposerモデルシリーズは、https://github.com/InternLM/InternLM-XComposer で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

InternLM-XComposer: 高度なテキスト-画像理解と構成のためのビジョン言語大規模モデル | 記事 | HyperAI超神経