* 该数据集支持在线使用,点击此处跳转。
JMED 数据集是一个基于真实世界医疗数据分布的新型数据集,由 Citrus Team 于 2025 年构建,相关论文成果为「Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support」。
该数据集源自京东健康互联网医院的匿名医患对话,经过过滤以保留遵循标准化诊断工作流程的咨询。初始版本包含 1k 份高质量临床记录,涵盖所有年龄段(0-90 岁)和多个专业。每个问题包括 21 个回答选项,其中有一个「以上都不是」选项。这种设计大大增加了区分正确答案的复杂性和难度,从而提供了更严格的评估框架。与现有数据集不同,JMED 密切模拟真实的临床数据,同时促进有效的模型训练。虽然基于真实的会诊数据,但它并不是直接来自实际的医疗数据,因此研究团队可以整合模型训练所需的关键要素。
与现有的医学 QA 数据集相比,JMED 具有三个主要优势:首先,它更准确地反映了患者症状描述的模糊性和真实场景中临床诊断的动态性质。其次,扩展的回答选项需要增强的推理能力,以便在众多干扰因素中识别正确答案。此外,利用京东大医院的大量会诊数据,可以持续生成符合真实患者分布特征的数据。
