摘要

随着大型语言模型（LLMs）在对话能力和推理能力方面的持续进步，其在医疗健康领域的实际应用已成为一项关键的研究方向。然而，当前医学类LLMs在静态基准测试（如美国医师执照考试USMLE）上的表现与其在真实临床决策中的实际应用价值之间，仍存在显著差距。这一差异的根源在于，传统考试无法捕捉医疗咨询过程中动态、交互式的本质特征。为应对这一挑战，我们提出了一种新颖的动态验证框架，突破了传统静态答案验证的局限，构建了一个大规模、高保真的交互式强化学习系统。该框架包含两个核心组件：一是基于去标识化医疗记录构建真实临床场景的患者模拟器（Patient Simulator），二是能够动态生成多维度评估指标的临床评分生成器（Clinical Rubrics Generator）。在此基础上，我们开发了Baichuan-M2——一个参数量达320亿的医学增强推理模型，采用多阶段强化学习策略进行训练，并引入改进的组相对策略优化（Group Relative Policy Optimization, GRPO）算法。在HealthBench基准测试中，Baichuan-M2的表现超越了所有其他开源模型，接近甚至超过多数先进闭源模型，在具有挑战性的HealthBench Hard子集上得分超过32，此前仅有GPT-5达到过这一水平。本研究证明，构建稳健的动态验证系统对于实现LLM能力与实际临床应用的对齐至关重要，为医疗人工智能部署中的性能与参数量权衡关系确立了新的帕累托前沿（Pareto front）。

源 PDF