项目概述

本教程采用资源为单卡 RTX A6000 。

Step1X-Edit 是由 StepFun 团队于 2025 年 4 月 25 日发布的一种最先进的图像编辑模型，该模型旨在与 GPT-4o 和 Gemini2 Flash 等闭源模型提供相当的性能。更具体地说，Step1X-Edit 采用多模态 LLM 来处理参考图像和用户的编辑指令，提取了潜在嵌入并将其与扩散图像解码器集成以获得目标图像。该模型总参数量为 19B (7B MLLM + 12B DiT)，具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力；支持 11 类高频图像编辑任务类型，如文字替换、风格迁移、材质变换、人物修图等。

Step1X-Edit 首次在开源体系中实现 MLLM 与 DiT 的深度融合，在编辑精度与图像保真度上实现大幅提升。在最新发布的图像编辑基准 GEdit-Bench 中，Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型，比肩 GPT-4o 与 Gemini 2.0 Flash 。相关论文成果为 Step1X-Edit: A Practical Framework for General Image Editing 。

Step1X-Edit 针对自然语言图像编辑任务，具备以下核心能力：

语义精准解析：支持自然语言描述的复杂组合指令，指令无需模板，能够灵活应对多轮、多任务编辑需求，同时支持对图像中文字进行识别、替换与重构；

身份一致性保持：编辑后能稳定保留人脸、姿态与身份特征，适用于虚拟人、电商模特、社交图像等高一致性场景；

高精度区域级控制：支持对指定区域进行文字、材质、色彩等定向编辑，保持图像风格统一，控制能力更精细。

引用信息

感谢 Github 用户 zhangjunchang 对本教程的部署，本项目引用信息如下：

@article{liu2025step1x-edit, title={Step1X-Edit: A Practical Framework for General Image Editing}, author={Shiyu Liu and Yucheng Han and Peng Xing and Fukun Yin and Rui Wang and Wei Cheng and Jiaqi Liao and Yingming Wang and Honghao Fu and Chunrui Han and Guopeng Li and Yuang Peng and Quan Sun and Jingwei Wu and Yan Cai and Zheng Ge and Ranchen Ming and Lei Xia and Xianfang Zeng and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Gang Yu and Daxin Jiang}, journal={arXiv preprint arXiv:2504.17761}, year={2025} }

HyperAI

运行此教程在 Discord 上讨论

日期

9 个月前

标签

图像识别

论文 URL

2504.17761

许可证

Apache 2.0

GitHub

stepfun-ai/Step1X-Edit

项目概述

本教程采用资源为单卡 RTX A6000 。

Step1X-Edit 针对自然语言图像编辑任务，具备以下核心能力：

语义精准解析：支持自然语言描述的复杂组合指令，指令无需模板，能够灵活应对多轮、多任务编辑需求，同时支持对图像中文字进行识别、替换与重构；
身份一致性保持：编辑后能稳定保留人脸、姿态与身份特征，适用于虚拟人、电商模特、社交图像等高一致性场景；
高精度区域级控制：支持对指定区域进行文字、材质、色彩等定向编辑，保持图像风格统一，控制能力更精细。

项目示例

运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

2. 进入网页后，即可与模型进行交互

交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

感谢 Github 用户 zhangjunchang 对本教程的部署，本项目引用信息如下：

@article{liu2025step1x-edit,
      title={Step1X-Edit: A Practical Framework for General Image Editing}, 
      author={Shiyu Liu and Yucheng Han and Peng Xing and Fukun Yin and Rui Wang and Wei Cheng and Jiaqi Liao and Yingming Wang and Honghao Fu and Chunrui Han and Guopeng Li and Yuang Peng and Quan Sun and Jingwei Wu and Yan Cai and Zheng Ge and Ranchen Ming and Lei Xia and Xianfang Zeng and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Gang Yu and Daxin Jiang},
      journal={arXiv preprint arXiv:2504.17761},
      year={2025}
}

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Command Palette

Step1X-Edit：图像编辑神器

项目概述

项目示例

运行步骤

交流探讨

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Step1X-Edit：图像编辑神器

项目概述

项目示例

运行步骤

交流探讨

引用信息

相关笔记本

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统

一键部署 Qwen-Image-Lightning

LongCat-Image-Edit-Interface：双语文本驱动图像编辑系统

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

kyutai-tts-1.6 b-en_fr 音频生成

JarvisArt-Preview 智能照片修饰代理

HunyuanWorld-1.0：3D 世界生成模型

n8n-workflows：工作流合集

腾讯混元 HunyuanVideo-Foley

Stable-Diffusion 在线教程-RTX5090

vLLM + Open WebUI 部署 Apriel-1.5-15b-Thinker

Long-VITA：百万 Token 多模态理解 Demo

DiagGym 诊断智能体

使用 vLLM-Omni 部署 Qwen-Image-Edit

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Step1X-Edit：图像编辑神器

项目概述

项目示例

运行步骤

交流探讨

引用信息

相关笔记本

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统

一键部署 Qwen-Image-Lightning

LongCat-Image-Edit-Interface：双语文本驱动图像编辑系统

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

kyutai-tts-1.6 b-en_fr 音频生成

JarvisArt-Preview 智能照片修饰代理

HunyuanWorld-1.0：3D 世界生成模型

n8n-workflows：工作流合集

腾讯混元 HunyuanVideo-Foley

Stable-Diffusion 在线教程-RTX5090

vLLM + Open WebUI 部署 Apriel-1.5-15b-Thinker

Long-VITA：百万 Token 多模态理解 Demo

DiagGym 诊断智能体

使用 vLLM-Omni 部署 Qwen-Image-Edit

用 AI 构建 AI

HyperAI Newsletters

相关笔记本

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统

一键部署 Qwen-Image-Lightning

LongCat-Image-Edit-Interface：双语文本驱动图像编辑系统

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架