Command Palette
Search for a command to run...

摘要
基于大语言模型(LLM)的智能体近年来取得了显著进展,展现出在多个领域中的强大能力,尤其体现在能够高效完成复杂信息检索与综合任务的深度研究系统上。尽管通用型深度研究智能体已展现出卓越性能,但在医学领域仍面临严峻挑战——即使领先的专有系统在复杂医学基准测试中也仅能实现有限的准确率。其核心瓶颈在于:(1)模型缺乏足够的密集医学知识以支持临床推理;(2)现有框架受限于缺乏针对医学场景定制的专用检索工具。为此,我们提出了一种面向医学领域的深度研究智能体,通过两项核心技术突破有效应对上述挑战。首先,我们构建了一种基于医学知识图谱的新型数据合成框架,通过提取罕见医学实体周围子图中的最长路径,生成复杂的多跳问答对,显著提升医学推理任务的多样性与复杂性。其次,我们集成了一套自主研发的私有医学检索引擎,与通用工具协同工作,实现了对医学信息的精准整合与合成。我们的方法在12个医学专科中生成了超过2100条多样化的推理轨迹,平均每条轨迹涉及4.2次工具调用。通过采用两阶段训练范式——结合监督微调与基于复合奖励机制的在线强化学习——我们训练出的MedResearcher-R1-32B模型在医学基准测试中表现出色,创下新的最先进水平,同时在通用深度研究任务中仍保持具有竞争力的性能。本研究证明:在架构设计、工具构建与训练数据构建方面进行有针对性的领域专用创新,可使规模更小的开源模型在特定领域超越远为庞大的专有系统。