HiDream-E1.1:指令式图片编辑器
一、教程简介

HiDream-E1.1 模型是由智象未来(HiDream.ai)于 2025 年 7 月发布的开源图像编辑模型。它基于自研的 Sparse Diffusion Transformer 架构,支持百万像素级分辨率,采用 MIT 开源协议。该模型实现了「所说即所改」的自然语言图像编辑功能,用户无需专业软件操作技能,通过简单语言指令即可完成色彩调整、风格迁移、元素增减等复杂任务。
该教程算力资源采用双卡 A6000 。支持中文、英文、法语等语言。
二、项目示例

三、运行步骤
1. 启动容器

2. 进入网页后,即可进行模型的使用
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 5-6 分钟后刷新页面。图片处理所需时间较长,大约 5-6 分钟,请耐心等待。

四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果 ↓

引用信息
本项目引用信息如下:
@InProceedings{fastvlm2025,
author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2025},
}