USO:统一风格和主体驱动的图像生成模型

一、教程简介

Build

USO 是由字节跳动 UXO 团队于 2025 年 8 月推出的内容与风格解耦与重组统一框架。能将任何主题与任何风格在任何场景中自由组合,生成具有高度主体一致性、强烈风格保真度且自然、非塑料感的图像。 USO 通过构建大规模三元组数据集,采用解耦学习方案同时对齐风格特征并分离内容与风格,引入风格奖励学习(SRL)来进一步提升模型性能。 USO 发布了 USO-Bench 基准测试,用于综合评估风格相似性和主体保真度。实验表明,USO 在主体一致性和风格相似性两个维度上均达到了开源模型的顶尖水平。相关论文成果为「USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning」。

该教程算力资源采用单卡 RTX 4090 。

二、效果展示

主题/身份驱动生成

如果您想将主题放入新场景中,请使用自然语言,例如:狗/男人/女人正在做…… 。如果您只想转移样式但保留布局,请使用指导性提示,例如:将样式转换为…… 风格。对于保留人像的生成,USO 擅长生成高皮肤细节图像。实用指南:半身提示使用半身特写镜头,当姿势或取景发生显着变化时使用全身图像。

风格驱动的生成

只需上传一两张风格的图片,然后使用自然语言创建您想要的。 USO 将按照您的提示生成图像并匹配您上传的风格。

风格主题驱动的生成

USO 可以使用一个或两个样式引用来样式化单个内容引用。对于保留布局的生成,只需将提示设置为空即可。

布局保留生成

布局偏移生成

三、运行步骤

1. 启动容器

2. 使用步骤

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

具体参数:

  • Generation Width:生成图片宽。
  • Generation Height:生成图片高。
  • Keep input size:如果您只需要样式编辑或想要保留布局,请将其设置为 True 。
  • Advanced Options:
    • Number of steps:控制扩散模型生成过程的迭代次数。步数越多,理论上图像质量可能越高,但生成时间也越长。
    • Guidance:控制生成图像遵循提示词和参考图像的程度。
    • Content reference size:在处理内容参考图时,可能会将其缩放到这个指定的最长边长度(保持宽高比),然后再提取特征。
    • Seed (-1 for random):控制随机数生成器的初始状态。

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

感谢 Github 用户 SuperYang  对本教程的部署。本项目引用信息如下:

@article{wu2025uso,
    title={USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning},
    author={Shaojin Wu and Mengqi Huang and Yufeng Cheng and Wenxu Wu and Jiahe Tian and Yiming Luo and Fei Ding and Qian He},
    year={2025},
    eprint={2508.18966},
    archivePrefix={arXiv},
    primaryClass={cs.CV},
}