HyperAIHyperAI

Command Palette

Search for a command to run...

Text-to-Image-2M 文本转图像训练数据集

Discuss on Discord

Date

6 个月前

License

MIT

Text-to-Image-2M 是一个高质量的文本-图像对数据集,专为微调文本转图像模型而设计。现有的公开数据集通常存在局限性(图像理解数据集、非正式收集或特定任务的数据集和大小限制)。为了解决这些问题,团队结合先进的文本转图像和字幕模型,对现有的高质量数据集进行了组合和增强,从而创建了 Text-to-Image-2M 数据集。

该数据集包含约 200 万条样本,分为 2 个核心子集:data_512_2M(200 万张 512×512 分辨率图像及标注)和 data_1024_10K(1 万张 1024×1024 高分辨率图像及标注),为不同精度需求的模型训练提供灵活选择。

数据组成:

  • data_512_2M
    • LLaVA-next 微调数据集(约 70 万样本,文本经 Qwen2-VL 重新生成以提升准确性)
    • LLaVA 预训练数据集(约 50 万样本,图像由 Flux-dev 模型生成,保留原始文本描述)
    • ProGamerGov 合成数据集(约 90 万样本,经中心裁剪和有效性过滤)
    • GPT-4o 生成数据集(10 万样本,文本由 GPT-4o 设计,图像由 Flux-dev 生成)
  • data_1024_10K
    • 包含 1 万张高分辨率图像,文本由 GPT-4o 生成,图像由 Flux-dev 模型渲染,聚焦细节丰富的复杂场景

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供