ShareGPT4V 数据集是一个由大量图像-文本对组成的高质量数据集,它被用于训练视觉-语言模型 (VLM),以提高模型在图像理解和文本生成方面的能力。该数据集包含 120 万对图像-文本配对,这些数据有效地对齐了视觉和语言特征,增强了模型遵循指令的能力,并纳入了更多学术任务,例如 ScienceQA 、 TextVQA 、 SBU 等。通过引入这个数据集,模型在图像-文本对齐能力方面得到了显著提升,这对于多模态表示学习是一个关键方面。
该数据集是中国科学技术大学,上海人工智能实验室于 2023 年发布。
做种 1
下载中 0
已完成 28
总下载 84