Command Palette
Search for a command to run...
Step1X-Edit:一种通用图像编辑的实用框架
Step1X-Edit:一种通用图像编辑的实用框架
摘要
近年来,图像编辑模型取得了显著而迅速的发展。近期发布的前沿多模态模型,如GPT-4o和Gemini 2 Flash,展现出极具前景的图像编辑能力。这些模型在满足用户多样化编辑需求方面表现出色,标志着图像编辑技术的重大进步。然而,开源模型与闭源先进模型之间仍存在较大差距。为此,本文提出一种先进的图像编辑模型——Step1X-Edit,旨在实现与GPT-4o、Gemini 2 Flash等闭源模型相媲美的性能。具体而言,本模型采用多模态大语言模型(Multimodal LLM)对参考图像及用户编辑指令进行理解与处理,提取其潜在语义嵌入(latent embedding),并将其与扩散图像解码器相结合,生成目标图像。为训练该模型,我们构建了一套数据生成流水线,用于生成高质量的训练数据集。在评估方面,我们设计了GEdit-Bench——一个基于真实用户指令的新型基准测试集。在GEdit-Bench上的实验结果表明,Step1X-Edit在性能上显著优于现有开源基线模型,并已接近领先闭源模型的表现,为图像编辑领域的发展作出了重要贡献。
一句话总结
StepFun旗下的Step1X-Image团队提出了Step1X-Edit,一种新颖的开源图像编辑模型,该模型利用多模态大语言模型(MLLM)处理用户指令和参考图像,将潜在嵌入与扩散解码器融合,生成高保真编辑结果;在涵盖11项任务的多样化数据集上训练,并通过新提出的GEdit-Bench进行评估,其性能接近GPT-4o和Gemini2 Flash等专有模型,推动了可访问、高质量的图像操作发展。
主要贡献
-
Step1X-Edit通过利用多模态大语言模型(MLLM)解析用户指令和参考图像,提取潜在嵌入,指导扩散图像解码器生成与输入和编辑意图高度对齐的高保真输出,有效弥合了开源与专有图像编辑模型之间的性能差距。
-
该模型在大规模、高质量的数据集上进行训练,该数据集通过可扩展的流水线生成,覆盖11种多样化的编辑任务类别,包括对象操作、属性修改和风格化,确保对现实世界编辑场景的全面覆盖,并支持强大的泛化能力。
-
在新提出的GEdit-Bench基准上进行评估,该基准基于真实用户指令构建,结果表明Step1X-Edit显著优于现有开源模型,并接近GPT-4o等领先专有系统的性能,验证了其在实际图像编辑任务中的有效性。
引言
作者利用多模态大语言模型(MLLM)和扩散架构,应对从创意设计到内容生成等应用中日益增长的直观、自然语言驱动的图像编辑需求。尽管近期专有模型如GPT-4o和Gemini2 Flash实现了高保真、上下文感知的编辑效果,但开源替代方案因训练数据质量有限、任务覆盖范围狭窄以及指令与视觉输出之间对齐能力弱而落后。为弥合这一差距,作者提出Step1X-Edit,一种统一框架,将基于MLLM的语义推理与DiT风格的扩散解码器相结合,实现精确、通用的编辑同时保持图像保真度。其关键贡献包括:一个可扩展的数据生成流水线,生成超过100万对高质量图像编辑样本,覆盖11类不同任务;一个从真实用户指令中精心构建的新基准——GEdit-Bench,以实现更真实的评估;以及一个开源模型,显著缩小了与专有系统之间的性能差距。
数据集
- 数据集名为Step1X-Edit,是一个大规模、高质量的图像指令三元组集合,包含超过2000万条(源图像、编辑指令、目标图像)数据,通过网络爬取和系统化分类整合为11个不同的图像编辑任务类别。
- 经过使用多模态大语言模型(如Step-1o)和人工标注员的严格筛选后,保留了超过100万条高质量三元组,构成Step1X-Edit-HQ子集,其规模超越现有数据集,且筛选后仍保持强大的绝对数量。
- 11个类别包括:主体添加与移除、主体替换与背景变更、颜色改变与材质修改、文本修改、运动变化、人像编辑与美化、风格迁移、色调转换。
- 对于主体添加/移除和替换/背景变更任务,流水线采用Florence-2进行语义标注,SAM-2进行分割,使用ObjectRemovalAlpha或Flux-Fill进行图像修复,并由Step-1o/GPT-4o生成指令,最后经人工验证。
- 颜色与材质编辑使用Zeodepth进行深度估计,结合ControlNet与扩散模型,在修改外观的同时保持对象身份一致性。
- 文本修改利用PPOCR进行字符识别,Step-1o识别有效/无效区域,最终输出通过人工润色优化。
- 运动变化来源于Koala-36M视频中的帧对,使用BiRefNet和RAFT进行前景-背景分离与光流估计,GPT-4o生成相关运动指令。
- 人像编辑结合公开的美化配对数据与人工主导的编辑,所有数据均经人工验证以确保一致性。
- 风格迁移为双向过程:风格化输入通过边缘引导的扩散模型转换为照片级真实输出,而真实输入则通过相同流程转化为风格化输出。
- 色调转换采用算法滤镜模拟全局调整,如去雾、去雨和季节变化。
- 采用增强冗余的标注策略,通过多轮模型与人工优化提升指令质量,减少幻觉现象。
- 风格化标注由上下文示例引导,确保数据集中语气、结构和粒度的一致性。
- 所有标注均为双语(中英文),提升可访问性并支持多语言模型训练。
- 数据集用于训练混合任务比例的模型,利用多样化子任务提升跨编辑领域泛化能力。
- 数据处理中应用裁剪策略,聚焦于与任务相关的图像区域,尤其适用于对象级编辑任务。
- 元数据包括任务类别、编辑类型、对象标签和变换细节,通过自动化与人工流水线构建。
- GEdit-Bench基准源自从Reddit收集的超过1000个真实用户编辑实例,用于评估模型在真实、实用编辑任务中的表现。
- 为保障隐私,采用去标识化协议:原始图像通过反向图像搜索替换为视觉与语义相似的公开替代品,或在无匹配时进行最小化、意图保留的修改。
方法
作者提出一种统一的通用图像编辑框架,整合多模态大语言模型(MLLM)、连接模块和Transformer中的扩散(DiT)架构。整体流程始于编辑指令与参考图像由MLLM(如Qwen-VL)通过单次前向传播联合处理,使模型能够捕捉文本指令与视觉内容之间的语义关系。为聚焦于编辑相关的信息,系统前缀对应的token嵌入被丢弃,仅保留与编辑指令对齐的嵌入。这些嵌入随后传递至轻量级连接模块(如token refiner),将其重构为适合DiT网络的紧凑多模态特征表示。此外,MLLM中有效嵌入的均值通过线性层投影,生成全局引导向量,使DiT能够受益于MLLM增强的语义理解能力。

DiT模块如附图所示,基于潜在表示运行。训练期间,参考图像由变分自编码器(VAE)编码器编码,其潜在特征被线性投影为图像token。如图所示,这些图像token与噪声图像token沿token长度维度拼接,形成DiT的最终视觉输入。DiT通过多个模块处理该输入,连接模块提供来自MLLM嵌入的额外条件信息。模型基于修正流公式使用扩散损失进行训练,联合优化连接模块与DiT。该训练策略确保稳定性,无需依赖掩码损失技巧,且采用固定学习率1e−5以平衡收敛速度与训练稳定性。

为实现有效的跨模态条件控制,作者设计了一种特征聚合策略,采用token拼接方式,遵循OminiControl的方法。该方法在响应编辑指令与保留图像细节之间取得平衡,与采用通道拼接或额外因果自注意力机制的方法形成对比。连接模块在此过程中起关键作用,将MLLM输出转换为可有效融入DiT潜在空间的形式,使模型能够对多样化用户指令执行高保真、语义对齐的编辑。
实验
- 在GEdit-Bench-EN和GEdit-Bench-CN上使用SQ、PQ和O指标进行评估;Step1X-Edit优于OmniGen等开源模型,并在与Gemini2 Flash和Doubao等闭源模型相当的水平上表现,尤其在GEdit-Bench-EN上的风格变化和颜色修改任务中超越它们,在GEdit-Bench-CN上的中文指令处理中表现卓越。
- 在GEdit-Bench-EN上,Step1X-Edit在交集子集取得最高总分,在11个评估维度上均表现稳健,展现出无需掩码的强鲁棒性与一致性。
- 在55名参与者的用户研究中,Step1X-Edit获得高主观偏好评分,与Gemini2 Flash、GPT-4o和Doubao竞争激烈,结果表明用户偏好强烈,尤其在身份保留和视觉质量方面表现突出。
作者使用GEdit-Bench-CN评估图像编辑模型,报告交集子集与全集结果。结果显示,Step1X-Edit-v1.1在交集子集所有指标中均取得最高分,超越Gemini [15]、Doubao [50]和GPT-4o [37],并在全集保持强劲表现,证明其在处理多样化编辑任务中的有效性。

作者通过用户研究评估图像编辑结果的主观质量,将Step1X-Edit与Gemini2 Flash、Doubao和GPT-4o在GEdit-Bench上进行比较。结果显示,Step1X-Edit的用户偏好得分与最先进模型相当,尤其在交集子集表现突出,而Gemini2 Flash因强大的身份保留能力获得显著高分。

结果显示,Step1X-Edit在交集子集的用户偏好得分为6.544,在全集得分为6.939,两项指标均超越Gemini [15]和Doubao [50]。作者利用这些得分证明,Step1X-Edit生成的编辑结果在主观质量上可与最先进模型媲美,尤其在全集表现中超越Gemini和Doubao。

作者使用GEdit-Bench评估图像编辑模型,结果显示Step1X-Edit优于开源模型,并在交集集和全集上与Gemini2 Flash和GPT-4o等闭源模型表现相当。在GEdit-Bench-EN评估中,Step1X-Edit在多数指标上取得最高分,尤其在语义一致性和整体质量方面表现突出,表明其在对齐编辑指令方面具有强大性能。

作者使用GEdit-Bench评估图像编辑模型,将其性能与最先进开源和专有系统进行比较。结果显示,Step1X-Edit优于现有开源模型,并在中英文指令上均达到与Gemini2 Flash和GPT-4o等闭源模型相当的水平。
