Command Palette
Search for a command to run...
虚拟临床环境中的诊断Agent演化
虚拟临床环境中的诊断Agent演化
摘要
本文提出了一种基于强化学习训练大型语言模型(LLM)作为诊断代理的框架,使其能够有效管理多轮诊断流程,自适应地选择检查项目,并最终做出确诊结论。与仅在静态病例摘要上进行指令微调的模型不同,我们的方法通过交互式探索与基于结果的反馈来习得诊断策略。本研究的主要贡献有四方面:(i)我们提出了DiagGym,一个基于电子健康记录训练的诊断世界模型,能够根据患者病史和推荐检查项目生成相应的检查结果,构建了一个虚拟临床环境,用于真实可靠的诊断训练与评估;(ii)我们采用端到端的多轮强化学习方法训练DiagAgent,使其学习能够同时优化信息获取量与诊断准确率的诊断策略;(iii)我们构建了DiagBench诊断评估基准,包含750个病例,其中每例均配有医生验证的检查推荐,另有99个病例附带973条由医生撰写的诊断过程评分标准(rubrics);(iv)我们在多种诊断场景下均验证了模型的优越性能。DiagAgent显著优于10种当前最先进的LLM,包括DeepSeek-v3和GPT-4o,以及两种基于提示工程的代理模型。在单轮诊断场景中,DiagAgent的诊断准确率高出9.34%,检查推荐命中率提升44.03%;在端到端诊断场景中,诊断准确率提升15.12%,检查推荐的F1分数提高23.09%;在基于评分标准的评估中,其加权评分比表现第二好的模型Claude-sonnet-4高出7.1%。这些结果表明,在交互式临床环境中学习诊断策略,能够赋予模型动态且具有临床意义的诊断管理能力,这是单纯被动训练所无法实现的。