Command Palette
Search for a command to run...

摘要
多模态大语言模型(MLLMs)的迅猛发展,使得如何使其与人类偏好对齐成为一项关键挑战。奖励模型(Reward Models, RMs)是实现这一目标的核心技术,然而在学术界与工业界,目前仍缺乏系统性指导来构建最先进的多模态奖励模型(Multimodal Reward Models, MRMs)。通过全面的实验分析,本文旨在为构建高性能MRMs提供一份清晰的“操作指南”。我们系统性地研究了MRM开发流程中的每一个关键组件,包括奖励建模范式(如Naive-RM、基于Critic的RM以及生成式RM)、奖励头架构、训练策略、数据筛选(涵盖十余种多模态及纯文本偏好数据集)、主干模型及其规模,以及集成方法。基于上述实验洞察,我们提出了BaseReward——一种强大且高效的多模态奖励建模基线模型。BaseReward采用简洁而高效的设计,以{Qwen2.5-VL}作为主干模型,配备经过优化的两层奖励头结构,并在精心筛选的高质量多模态与纯文本偏好数据混合集上进行训练。实验结果表明,BaseReward在MM-RLHF-Reward Bench、VL-Reward Bench和Multimodal Reward Bench等多个主流基准测试中均取得了新的SOTA(State-of-the-Art)性能,显著优于以往模型。此外,为验证其在静态基准之外的实际应用价值,我们将BaseReward集成至一个真实世界的强化学习流水线中,成功提升了MLLM在多种感知、推理与对话任务中的表现。本研究不仅推出了一款顶尖的MRM模型,更重要的是,为下一代MLLM的稳健奖励模型开发提供了清晰、基于实证的指导方案,为该领域的发展提供了重要参考。