
摘要
我们提出了一种专为医学领域设计的新型基于图结构的检索增强生成(Retrieval-Augmented Generation, RAG)框架,命名为 MedGraphRAG,旨在提升大型语言模型(Large Language Model, LLM)生成循证医学回答的能力,从而在处理私密医疗数据时显著增强安全性与可靠性。基于图结构的RAG(GraphRAG)利用大语言模型将检索数据组织为图结构,展现出从长篇文档中获取整体性洞察的强大潜力。然而,其标准实现方式过于复杂,难以广泛适用,且缺乏生成循证回答的能力,限制了其在医学领域的实际效能。为拓展GraphRAG在医学领域的应用能力,我们在此基础上提出两项创新技术:三元组图结构构建与U-Retrieval检索机制。在图结构构建方面,我们设计了一种三元组连接结构,将用户输入的文档与可信医学来源及受控术语词表进行关联。在检索过程中,我们提出U-Retrieval机制,融合自顶向下的精确检索与自底向上的响应优化,以在全局上下文感知与精准索引之间实现良好平衡。上述方法共同实现了可靠来源信息的精准检索与全面响应的生成。我们在9个医学问答基准、2个健康事实核查基准以及一个用于长文本生成的自建数据集上对MedGraphRAG进行了验证。实验结果表明,MedGraphRAG在所有基准上均持续优于当前最先进的模型,同时确保生成的回答包含可信的来源标注与术语定义。相关代码已开源,地址为:[this https URL]。