2ヶ月前

ShareGPT4V: より良いキャプションを用いた大規模マルチモーダルモデルの改善

Lin Chen; Jinsong Li; Xiaoyi Dong; Pan Zhang; Conghui He; Jiaqi Wang; Feng Zhao; Dahua Lin
ShareGPT4V: より良いキャプションを用いた大規模マルチモーダルモデルの改善
要約

大規模マルチモーダルモデル(LMMs)の分野において、効率的なモーダリティアライメントは重要である一方で、高品質な画像-テキストデータの不足によりしばしば制約されています。このボトルネックを解消するため、私たちは ShareGPT4V データセットを紹介します。これは120万件の非常に詳細なキャプションを特徴とする先駆的な大規模リソースであり、既存のデータセットを多様性と情報量で上回り、世界の知識、物体の特性、空間関係、美意識評価などをカバーしています。特に、ShareGPT4V は高度な GPT4-Vision から収集された10万件の高品質なキャプションに由来し、このサブセット上で訓練された優れたキャプションモデルによって120万件に拡張されました。ShareGPT4V はまず監督微調整(SFT)フェーズでの有効性を示しており、既存の SFT データセットにおける同等数量の詳細なキャプションを私たちの高品質なキャプションのサブセットで置き換えることで、LLaVA-7B、LLaVA-1.5-13B、Qwen-VL-Chat-7B のような LMM を MME および MMBench ベンチマークで大幅に向上させています。それぞれ222.8/22.0/22.3ポイントと2.7/1.3/1.5ポイントの改善が見られました。さらに私たちは ShareGPT4V データを事前学習フェーズと SFT フェーズに組み込むことで、単純なアーキテクチャに基づく優れた LMM ShareGPT4V-7B を得ました。このモデルは多数のマルチモーダルベンチマークで著しい性能を発揮しています。本プロジェクトは https://ShareGPT4V.github.io で公開されており、LMMs コミュニティの発展に重要なリソースとして提供されます。

ShareGPT4V: より良いキャプションを用いた大規模マルチモーダルモデルの改善 | 最新論文 | HyperAI超神経