ShareGPT4V データセットは、多数の画像とテキストのペアで構成される高品質のデータセットであり、画像理解とテキスト生成におけるモデルの機能を向上させるために視覚言語モデル (VLM) をトレーニングするために使用されます。データセットには 120 万の画像とテキストのペアが含まれており、視覚的特徴と言語的特徴を効果的に調整し、指示に従うモデルの能力を強化し、ScienceQA、TextVQA、SBU などのより学術的なタスクを組み込んでいます。このデータセットの導入により、モデルは、マルチモーダル表現学習の重要な側面である画像とテキストの位置合わせ機能が大幅に向上しました。
このデータセットは、中国科学技術大学の上海人工知能研究所によって 2023 年にリリースされました。
做种 1
下载中 0
已完成 28
总下载 83