Bowen Ping Chengyou Jia Minnan Luo Changliang Xia Xin Shen Zhuohang Dang Hangwei Qian

摘要
一致的图像生成要求在多幅图像之间忠实保留身份特征、风格一致性以及逻辑连贯性,这对故事叙述和角色设计等应用至关重要。然而,监督学习方法在该任务上面临挑战,主要受限于缺乏大规模、能够捕捉视觉一致性的数据集,以及建模人类感知偏好所固有的复杂性。本文提出,强化学习(Reinforcement Learning, RL)为解决这一问题提供了一种有前景的替代方案,其优势在于无需依赖大规模标注数据即可让模型学习复杂的、主观的视觉标准。为此,我们提出了PaCo-RL——一个综合性框架,融合了专用的一致性奖励模型与高效的强化学习算法。该框架包含两个核心组件:其一为PaCo-Reward,一种基于大规模自动化子图配对构建的数据集训练而成的成对一致性评估模型。该模型采用生成式、自回归的评分机制,并结合任务感知指令与思维链(Chain-of-Thought, CoT)推理,实现对视觉一致性的精准评估。其二为PaCo-GRPO,提出了一种新颖的分辨率解耦优化策略,显著降低了强化学习的计算成本;同时引入对数压缩的多奖励聚合机制,有效保障了奖励优化过程的平衡性与稳定性。在两个代表性子任务上的大量实验表明,PaCo-Reward显著提升了模型输出与人类对视觉一致性的主观感知之间的对齐程度;而PaCo-GRPO在保持训练效率与稳定性的前提下,实现了当前最优的一致性生成性能。综合来看,这些结果充分展示了PaCo-RL作为一项实用且可扩展的一致图像生成解决方案的巨大潜力。项目主页详见:https://x-gengroup.github.io/HomePage_PaCo-RL/