ShareGPT-4o-Image 是一个大规模、高质量的图像生成数据集,相关论文成果为「ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation」,旨在将 GPT-4o 级别的图像生成能力迁移至开源多模态模型。
该数据集中所有图像均由 GPT-4o 的图像生成功能生成,数据共包含来自 GPT-4o 的 92,256 个图像生成样本,其中包含 45,717 个文本转图像(text-to-image)和 46,539 个文本与图像到图像(text-and-image-to-image)提示词,均经过精心筛选以确保多样性和质量。该数据集覆盖了广泛的风格和具身视觉推理场景,同时体现了 GPT-4o 在指令遵循和视觉美学方面的优势。
