摘要

本文提出了一种基于强化学习训练大型语言模型（LLM）作为诊断代理的框架，使其能够有效管理多轮诊断流程，自适应地选择检查项目，并最终做出确诊结论。与仅在静态病例摘要上进行指令微调的模型不同，我们的方法通过交互式探索与基于结果的反馈来习得诊断策略。本研究的主要贡献有四方面：（i）我们提出了DiagGym，一个基于电子健康记录训练的诊断世界模型，能够根据患者病史和推荐检查项目生成相应的检查结果，构建了一个虚拟临床环境，用于真实可靠的诊断训练与评估；（ii）我们采用端到端的多轮强化学习方法训练DiagAgent，使其学习能够同时优化信息获取量与诊断准确率的诊断策略；（iii）我们构建了DiagBench诊断评估基准，包含750个病例，其中每例均配有医生验证的检查推荐，另有99个病例附带973条由医生撰写的诊断过程评分标准（rubrics）；（iv）我们在多种诊断场景下均验证了模型的优越性能。DiagAgent显著优于10种当前最先进的LLM，包括DeepSeek-v3和GPT-4o，以及两种基于提示工程的代理模型。在单轮诊断场景中，DiagAgent的诊断准确率高出9.34%，检查推荐命中率提升44.03%；在端到端诊断场景中，诊断准确率提升15.12%，检查推荐的F1分数提高23.09%；在基于评分标准的评估中，其加权评分比表现第二好的模型Claude-sonnet-4高出7.1%。这些结果表明，在交互式临床环境中学习诊断策略，能够赋予模型动态且具有临床意义的诊断管理能力，这是单纯被动训练所无法实现的。

源 PDF 查看代码