HyperAI超神经

Step1X-Edit:图像编辑神器

项目概述

GitHub Stars

本教程采用资源为单卡 RTX A6000 。

Step1X-Edit 是由 StepFun 团队于 2025 年 4 月 25 日发布的一种最先进的图像编辑模型,该模型旨在与 GPT-4o 和 Gemini2 Flash 等闭源模型提供相当的性能。更具体地说,Step1X-Edit 采用多模态 LLM 来处理参考图像和用户的编辑指令,提取了潜在嵌入并将其与扩散图像解码器集成以获得目标图像。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。

Step1X-Edit 首次在开源体系中实现 MLLM 与 DiT 的深度融合,在编辑精度与图像保真度上实现大幅提升。在最新发布的图像编辑基准 GEdit-Bench 中,Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型,比肩 GPT-4o 与 Gemini 2.0 Flash 。相关论文成果为「Step1X-Edit: A Practical Framework for General Image Editing」。

Step1X-Edit 针对自然语言图像编辑任务,具备以下核心能力:

  • 语义精准解析:支持自然语言描述的复杂组合指令,指令无需模板,能够灵活应对多轮、多任务编辑需求,同时支持对图像中文字进行识别、替换与重构;
  • 身份一致性保持:编辑后能稳定保留人脸、姿态与身份特征,适用于虚拟人、电商模特、社交图像等高一致性场景;
  • 高精度区域级控制:支持对指定区域进行文字、材质、色彩等定向编辑,保持图像风格统一,控制能力更精细。

项目示例

运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 1-2 分钟后刷新页面。

2. 进入网页后,即可与模型进行交互

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

感谢 Github 用户 zhangjunchang  对本教程的部署,本项目引用信息如下:

@article{liu2025step1x-edit,
      title={Step1X-Edit: A Practical Framework for General Image Editing}, 
      author={Shiyu Liu and Yucheng Han and Peng Xing and Fukun Yin and Rui Wang and Wei Cheng and Jiaqi Liao and Yingming Wang and Honghao Fu and Chunrui Han and Guopeng Li and Yuang Peng and Quan Sun and Jingwei Wu and Yan Cai and Zheng Ge and Ranchen Ming and Lei Xia and Xianfang Zeng and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Gang Yu and Daxin Jiang},
      journal={arXiv preprint arXiv:2504.17761},
      year={2025}
}