Step1X-Edit:一种实用的通用图像编辑框架
Shiyu Liu, Yucheng Han, Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu, Daxin Jiang
发布日期: 4/29/2025

摘要
近年来,图像编辑模型取得了显著且快速的发展。近期,诸如GPT-4o和Gemini2 Flash等前沿多模态模型的发布,引入了极具前景的图像编辑功能。这些模型展示了令人印象深刻的处理能力,能够满足大多数用户驱动的编辑需求,标志着图像处理领域的重大进展。然而,开源算法与这些闭源模型之间仍存在较大差距。因此,本文旨在发布一种最先进的图像编辑模型——Step1X-Edit,其性能可与GPT-4o和Gemini2 Flash等闭源模型相媲美。具体而言,我们采用了多模态大语言模型(Multimodal LLM)来处理参考图像和用户的编辑指令。通过提取潜在嵌入并将其与扩散图像解码器结合,最终生成目标图像。为了训练该模型,我们构建了一条数据生成管道以生成高质量的数据集。在评估方面,我们开发了GEdit-Bench这一基于真实用户指令的新基准测试工具。实验结果表明,在GEdit-Bench上,Step1X-Edit显著优于现有的开源基线模型,并接近领先专有模型的性能,从而为图像编辑领域做出了重要贡献。