Command Palette
Search for a command to run...
Text-to-Image-2M 文本转图像训练数据集
Text-to-Image-2M 是一个高质量的文本-图像对数据集,专为微调文本转图像模型而设计。现有的公开数据集通常存在局限性(图像理解数据集、非正式收集或特定任务的数据集和大小限制)。为了解决这些问题,团队结合先进的文本转图像和字幕模型,对现有的高质量数据集进行了组合和增强,从而创建了 Text-to-Image-2M 数据集。
该数据集包含约 200 万条样本,分为 2 个核心子集:data_512_2M(200 万张 512×512 分辨率图像及标注)和 data_1024_10K(1 万张 1024×1024 高分辨率图像及标注),为不同精度需求的模型训练提供灵活选择。
数据组成:
- data_512_2M:
- LLaVA-next 微调数据集(约 70 万样本,文本经 Qwen2-VL 重新生成以提升准确性)
- LLaVA 预训练数据集(约 50 万样本,图像由 Flux-dev 模型生成,保留原始文本描述)
- ProGamerGov 合成数据集(约 90 万样本,经中心裁剪和有效性过滤)
- GPT-4o 生成数据集(10 万样本,文本由 GPT-4o 设计,图像由 Flux-dev 生成)
- data_1024_10K:
- 包含 1 万张高分辨率图像,文本由 GPT-4o 生成,图像由 Flux-dev 模型渲染,聚焦细节丰富的复杂场景