Command Palette
Search for a command to run...
Shaojin Wu Mengqi Huang Yufeng Cheng Wenxu Wu Jiahe Tian Yiming Luo Fei Ding Qian He

摘要
现有文献通常将风格驱动生成与主体驱动生成视为两个相互独立的任务:前者注重风格相似性,后者强调主体一致性,从而导致二者之间存在明显的对立关系。我们认为,这两种目标可以在同一框架下实现统一,因为它们本质上都涉及内容与风格的解耦与重组,而这正是风格驱动研究领域长期关注的核心课题。为此,我们提出 USO——一种统一风格-主体优化的定制化模型。首先,我们构建了一个大规模三元组数据集,包含内容图像、风格图像及其对应的风格化内容图像。其次,我们设计了一种解耦学习机制,通过两个互补的目标——风格对齐训练与内容-风格解耦训练——同时实现风格特征的对齐以及内容与风格的有效分离。第三,我们引入一种称为 SRL(Style Reward Learning)的风格奖励学习范式,进一步提升模型性能。最后,我们发布了 USO-Bench,这是首个能够基于多种指标联合评估风格相似性与主体一致性的基准测试平台。大量实验表明,USO 在开源模型中于主体一致性和风格相似性两个维度均达到了当前最优水平。代码与模型地址:https://github.com/bytedance/USO