Command Palette

Search for a command to run...

Text-to-Image-2M 文本转图像训练数据集

日期

4 个月前

许可协议

MIT

加入 Discord 社区

Text-to-Image-2M 是一个高质量的文本-图像对数据集,专为微调文本转图像模型而设计。现有的公开数据集通常存在局限性(图像理解数据集、非正式收集或特定任务的数据集和大小限制)。为了解决这些问题,团队结合先进的文本转图像和字幕模型,对现有的高质量数据集进行了组合和增强,从而创建了 Text-to-Image-2M 数据集。

该数据集包含约 200 万条样本,分为 2 个核心子集:data_512_2M(200 万张 512×512 分辨率图像及标注)和 data_1024_10K(1 万张 1024×1024 高分辨率图像及标注),为不同精度需求的模型训练提供灵活选择。

数据组成:

  • data_512_2M
    • LLaVA-next 微调数据集(约 70 万样本,文本经 Qwen2-VL 重新生成以提升准确性)
    • LLaVA 预训练数据集(约 50 万样本,图像由 Flux-dev 模型生成,保留原始文本描述)
    • ProGamerGov 合成数据集(约 90 万样本,经中心裁剪和有效性过滤)
    • GPT-4o 生成数据集(10 万样本,文本由 GPT-4o 设计,图像由 Flux-dev 生成)
  • data_1024_10K
    • 包含 1 万张高分辨率图像,文本由 GPT-4o 生成,图像由 Flux-dev 模型渲染,聚焦细节丰富的复杂场景

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供