10 天前

Echo-4o:利用GPT-4o合成图像提升图像生成性能

Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, et al
Echo-4o:利用GPT-4o合成图像提升图像生成性能
摘要

近期,GPT-4o 凭借其在图像生成任务中的出色表现引发广泛关注,而开源模型在此方面仍存在明显差距。已有若干研究尝试通过蒸馏 GPT-4o 生成的图像数据来提升开源模型的性能,取得了显著进展。然而,一个关键问题仍待解答:既然现实世界中的图像数据集本身已是高质量数据的天然来源,为何还需使用 GPT-4o 生成的合成数据?在本研究中,我们识别出合成图像的两大优势。其一,它们能够补充现实数据集中罕见的场景,例如超现实幻想图像或多参考图像生成,这类需求在用户查询中频繁出现;其二,合成图像提供了清晰且可控的监督信号。相比之下,真实世界数据常包含复杂的背景噪声,且文本描述与图像内容之间存在固有的不一致性,而合成图像则具备纯净背景和长尾分布的监督信号,有助于实现更精准的文本到图像对齐。 基于上述洞察,我们提出了 Echo-4o-Image,一个由 GPT-4o 生成的、规模达 18 万的合成图像数据集,旨在利用合成数据的优势,弥补现实世界数据覆盖的盲区。基于该数据集,我们对统一的多模态生成基线模型 Bagel 进行微调,构建出 Echo-4o 模型。此外,我们还提出了两个新的评估基准,以实现更准确且更具挑战性的图像生成能力评测:GenEval++ 通过提升指令复杂度来缓解评分饱和问题,而 Imagine-Bench 则专注于评估模型对想象力内容的理解与生成能力。 实验结果表明,Echo-4o 在多个标准基准上均展现出强劲性能。更重要的是,将 Echo-4o-Image 应用于其他基础模型(如 OmniGen2、BLIP3-o)时,均在多个指标上实现了稳定且一致的性能提升,充分体现了该数据集出色的可迁移性。