302 例罕见病病例数据集
*该数据集支持在线使用,点击此处跳转。
该数据集为论文「Enhancing diagnostic capability with multi-agents conversational large language models」所用测试集,该研究已被 nature 接受。
该数据集包含 302 种罕见病,每个类别随机选取 1 至 9 种罕见病。这些罕见病是从 Orphanet 数据库中 33 种类型的 7k+ 种罕见病中选出的,Orphanet 数据库是欧盟委员会共同资助的综合罕见病数据库。由于罕见病在不同类型的分布不同,因此采用归一化加权随机抽样方法进行选择,以确保均衡的代表性。根据每种类型的疾病数量调整抽样权重,并通过自然对数变换进行调整。