HyperAI超神经

EasyControl 吉卜力风图像生成 Demo

效果示例

一、教程简介

EasyControl 是一个旨在为扩散变换器 (Diffusion Transformer) 添加高效灵活控制的项目,由 Tiamat AI 、上海科技大学、新加坡国立大学和 Liblib AI 于 2025 年共同开发,相关论文成果为「EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer」。随着扩散模型架构从基于 Unet 的结构向 Diffusion Transformer (DiT) 转变,现有的 DiT 生态系统缺乏成熟的插件支持,同时面临着效率瓶颈、多条件协调冲突以及模型适应性不足等问题。为了解决这些问题,EasyControl 提出了一种高效且灵活的统一条件 DiT 框架。通过引入轻量级的条件注入 LoRA 模块、位置感知训练范式以及结合因果注意力机制和 KV 缓存技术,EasyControl 显著提升了模型兼容性,支持即插即用功能和无损风格控制;同时增强了生成灵活性,能够支持多种分辨率、宽高比和多条件组合;并且优化了推理效率,使得模型在运行时更加高效。

本教程使用风格化 Img2Img 控制模型,该模型能够将肖像转换为宫崎骏风格的艺术作品,仅使用了 100 张真实亚洲面孔及其对应的 GPT-4o 生成的吉卜力风格图像进行训练,同时保留了面部特征并应用了标志性的动漫美学。此外,EasyControl 还与 CFG-Zero 团队合作,进一步提升了图像保真度和可控性。团队还计划继续优化模型性能,并探索更多应用场景,未来可能会发布更多预训练权重和训练代码,以支持社区的进一步研究和开发。

本教程使用 EasyControl 作为演示,算力资源采用 A6000 。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「BadGateway」,这表示模型正在初始化,由于模型较大,请等待约 1-2 分钟后刷新页面。

2. 进入网页后,即可开始使用

使用步骤

演示样例

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓