Command Palette
Search for a command to run...

摘要
奖励模型(Reward Models, RMs)在通过强化学习(Reinforcement Learning, RL)提升生成模型性能方面起着关键作用,然而在视觉生成领域,奖励模型的扩展范式仍 largely 未被充分探索。这主要归因于现有方法存在的根本性局限:基于CLIP的奖励模型受限于架构设计与输入模态,而广泛采用的Bradley-Terry损失函数在本质上与视觉-语言模型(Vision-Language Models, VLMs)的下一个词预测机制不一致,严重阻碍了其有效扩展。更关键的是,RLHF(基于人类反馈的强化学习)优化过程常受“奖励欺骗”(Reward Hacking)问题困扰——模型利用奖励信号中的漏洞,而非真正提升生成质量。为应对上述挑战,我们提出RewardDance,一种可扩展的奖励建模框架,通过一种创新的生成式奖励范式克服上述障碍。RewardDance将奖励得分重新定义为模型预测“是”(yes) token 的概率,该 token 表示生成图像在特定标准下优于参考图像。这一设计使奖励目标与VLM架构天然对齐,从而在两个维度上实现有效扩展:(1)模型扩展:将奖励模型系统性地扩展至高达260亿参数规模;(2)上下文扩展:集成任务特定指令、参考样例以及思维链(Chain-of-Thought, CoT)推理。大量实验证明,RewardDance在文本到图像、文本到视频以及图像到视频生成任务中,显著超越现有最先进方法。尤为重要的是,我们成功解决了长期存在的“奖励欺骗”难题:大规模奖励模型在RL微调过程中展现出并持续保持较高的奖励方差,证明其具备抵御奖励欺骗的能力,并能生成多样化、高质量的输出,显著缓解了小模型普遍面临的模式崩溃问题。