HyperAI超神经

OminiControl 多功能图像生成与控制

OminiControl
GitHub Stars
GitHub License
arXiv

一、教程简介

OminiControl 是由新加坡国立大学 xML 实验室于 2024 年 12 月发布的一个最小但功能强大的通用控制框架,适用于 FLUX 等 Diffusion Transformer 模型。可以通过使用 FLUX 模型自定义任何控制任务(3D 、多视图、姿势引导等)来创建自己 OminiControl 模型。相关论文成果为「OminiControl: Minimal and Universal Control for Diffusion Transformer」。

通用控制 🌐 :一个统一的控制框架,同时支持主体驱动的控制和空间控制(例如边缘导向和绘画内生成)。

最小设计 🚀 : 在保留原始模型结构的同时注入控制信号。仅向基本模型引入 0.1% 的附加参数。

本教程基于 OminiControl 通用控制框架,实现了对图像的主题驱动的生成和空间控制。算力资源采用单卡 A6000 。

效果示例

1. 主题驱动的生成

演示(左:条件图像;右:生成图像)

文本提示词

  • 提示词 1:特写镜头展示该物品。放置在木桌上,背景为黑暗的房间,电视开启且屏幕正在播放烹饪节目,屏幕上显示文字 “Omini Control!”
  • 提示词 2:电影风格镜头。在月球表面,该物品在月球表面行驶,车身上带有 “Omini” 字样的旗帜。背景是占据前景的巨大地球。
  • 提示词 3:包豪斯风格房间内,物品放置在闪亮的玻璃桌上,旁边有一个插满鲜花的花瓶。午后阳光下,百叶窗的影子投射在墙上。
  • 提示词 4:海滩上,一位女士坐在印有 “Omini” 字样的遮阳伞下,身着这件衬衫,面带灿烂笑容,身后放着冲浪板。背景是日落时分的橙紫色天空。

2. 空间对齐控制

图像修复(左:原始图像;中:掩码图像;右:填充结果)

  • 提示词:蒙娜丽莎戴着印有 “Omini” 字样的白色 VR 头显。
  • 提示词:黄色书籍封面印有大字体 “OMINI” 字样,底部显示 “for FLUX” 文字。

二、运行步骤

若不显示「模型」,这表示模型正在初始化,由于模型较大,请等待约 1-2 分钟后刷新页面。

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后,即可体验主题驱动的生成 (Subject) 和空间控制 (Spatial)

注意:两种模型间的切换需要等待 30 到 70 秒左右,请耐心等待。

主题驱动生成:  用户提供某种物体的一张图片,以及该物体所在目标场景的文本描述,即可完成主题驱动的生成。

空间控制:  包含图像修复和 Canny 等操作,用户提供某物体的图片,以及对该物体改变的文本描述,即可完成图像的空间控制。 

主题驱动生成效果 (Subject) 

空间控制-图像修复效果 (Spatial) 

引用信息

感谢 GitHub 用户 SuperYang  对本教程的制作,本项目引用信息如下:

@article{tan2024ominicontrol,
  title={Ominicontrol: Minimal and universal control for diffusion transformer},
  author={Tan, Zhenxiong and Liu, Songhua and Yang, Xingyi and Xue, Qiaochu and Wang, Xinchao},
  journal={arXiv preprint arXiv:2411.15098},
  volume={3},
  year={2024}
}

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓