302개의 희귀 질환 사례 데이터 세트
*이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.
이 데이터 세트는 논문에서 가져온 것입니다.다중 에이전트 대화형 대규모 언어 모델을 통한 진단 기능 향상"이 연구에 사용된 테스트 세트는 Nature에서 수용되었습니다.
이 데이터 세트에는 302개의 희귀 질병이 포함되어 있으며, 각 범주에서 1~9개의 희귀 질병이 무작위로 선택되었습니다. 이러한 희귀 질병은 유럽 위원회가 공동 자금을 지원한 포괄적인 희귀 질병 데이터베이스인 Orphanet 데이터베이스에 있는 33개 유형의 7,000개 이상의 희귀 질병 중에서 선정되었습니다. 희귀 질병은 유형별로 다르게 분포되므로, 균형 잡힌 대표성을 보장하기 위해 정규화된 가중 무작위 표본 추출 방법을 사용하여 선택했습니다. 표본 가중치는 각 유형의 질병 수에 맞게 조정되었으며 자연 로그 변환을 통해 조정되었습니다.