一、教程简介

HiDream-E1.1 模型是由智象未来（HiDream.ai）于 2025 年 7 月发布的开源图像编辑模型。它基于自研的 Sparse Diffusion Transformer 架构，支持百万像素级分辨率，采用 MIT 开源协议。该模型实现了「所说即所改」的自然语言图像编辑功能，用户无需专业软件操作技能，通过简单语言指令即可完成色彩调整、风格迁移、元素增减等复杂任务。

该教程算力资源采用双卡 A6000 。支持中文、英文、法语等语言。

引用信息

本项目引用信息如下：

@InProceedings{fastvlm2025, author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari}, title = {FastVLM: Efficient Vision Encoding for Vision Language Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2025}, }

HyperAI

运行此教程在 Discord 上讨论

日期

5 个月前

大小

391.24 MB

标签

图像理解

许可证

MIT

GitHub

HiDream-ai/HiDream-E1

论文 URL

github.com

一、教程简介

该教程算力资源采用双卡 A6000 。支持中文、英文、法语等语言。

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 5-6 分钟后刷新页面。图片处理所需时间较长，大约 5-6 分钟，请耐心等待。

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果 ↓

引用信息

本项目引用信息如下：

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

5 个月前

大小

391.24 MB

标签

图像理解

许可证

MIT

GitHub

HiDream-ai/HiDream-E1

论文 URL

github.com

一、教程简介

该教程算力资源采用双卡 A6000 。支持中文、英文、法语等语言。

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 5-6 分钟后刷新页面。图片处理所需时间较长，大约 5-6 分钟，请耐心等待。

四、交流探讨

引用信息

本项目引用信息如下：

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

Z-Image-Turbo：高效 6B 参数图像生成模型

2 个月前

Ovis-Image：高质量图像生成模型

2 个月前

PaddleOCR-VL：多模态文档解析

3 个月前

Krea-realtime-video：实时视频生成模型

3 个月前

Depth-Anything-3：从任何视角恢复视觉空间

2 个月前

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

1 个月前

HunyuanOCR：腾讯混元端到端 OCR

2 个月前

腾讯混元 HunyuanVideo-Foley

1 个月前

ROCKET-2：3D 游戏零样本迁移

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

HiDream-E1.1：指令式图片编辑器

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

四、交流探讨

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

HiDream-E1.1：指令式图片编辑器

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

四、交流探讨

引用信息

相关教程

Z-Image-Turbo：高效 6B 参数图像生成模型

Ovis-Image：高质量图像生成模型

PaddleOCR-VL：多模态文档解析

Krea-realtime-video：实时视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

HunyuanOCR：腾讯混元端到端 OCR

腾讯混元 HunyuanVideo-Foley

ROCKET-2：3D 游戏零样本迁移

用 AI 构建 AI

HyperAI Newsletters

Command Palette

HiDream-E1.1：指令式图片编辑器

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器

2. 进入网页后，即可进行模型的使用

四、交流探讨

引用信息

相关教程

Z-Image-Turbo：高效 6B 参数图像生成模型

Ovis-Image：高质量图像生成模型

PaddleOCR-VL：多模态文档解析

Krea-realtime-video：实时视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

HunyuanOCR：腾讯混元端到端 OCR

腾讯混元 HunyuanVideo-Foley

ROCKET-2：3D 游戏零样本迁移

用 AI 构建 AI

HyperAI Newsletters

相关教程

Z-Image-Turbo：高效 6B 参数图像生成模型

Ovis-Image：高质量图像生成模型

PaddleOCR-VL：多模态文档解析

Krea-realtime-video：实时视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

HunyuanOCR：腾讯混元端到端 OCR

腾讯混元 HunyuanVideo-Foley

ROCKET-2：3D 游戏零样本迁移

相关教程

Z-Image-Turbo：高效 6B 参数图像生成模型

Ovis-Image：高质量图像生成模型

PaddleOCR-VL：多模态文档解析

Krea-realtime-video：实时视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

HunyuanOCR：腾讯混元端到端 OCR

腾讯混元 HunyuanVideo-Foley

ROCKET-2：3D 游戏零样本迁移