HyperAI초신경

MedQA 의료 텍스트 질의응답 데이터세트

날짜

4달 전

크기

125.64 MB

기관

MIT
화중과학기술대학교

발행 주소

github.com

* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.

MedQA 데이터 세트는 미국 의사 면허 시험(USMLE)의 스타일을 시뮬레이션한 의료 분야의 질의응답 데이터 세트입니다. 2020년 MIT와 화중과학기술대학교 연구팀이 발표했습니다. 관련 논문 결과는 다음과 같습니다.이 환자는 어떤 질병을 앓고 있나요? 의료 검진에서 얻은 대규모 오픈 도메인 질문 답변 데이터 세트". 이 데이터 세트는 전문 의료 검진에서 수집되었으며, 영어, 간체 중국어, 번체 중국어를 포함하고 있으며, 각각 12,723개, 34,251개, 14,123개의 질문이 포함되어 있습니다. 이는 모델의 의학 지식 이해도 및 적용 능력을 평가하기 위한 것입니다.

MedQA 데이터 세트는 전문 의료 면허 시험을 기반으로 구축되었으며, 질문의 높은 품질과 전문성을 보장합니다. 질문 데이터 외에도 대규모 의학 교과서 코퍼스를 수집하여 공개하였는데, 이를 통해 독해 모델은 질문에 답하는 데 필요한 지식을 습득할 수 있습니다. 데이터 세트는 모델 학습, 검증, 테스트에 각각 사용되는 학습 세트, 개발 세트, 테스트 세트로 나뉩니다.

데이터셋 분할, 질문 및 답변 길이 통계
MedQA.torrent
시딩 2다운로드 중 1완료됨 83총 다운로드 횟수 332
  • MedQA/
    • README.md
      1.75 KB
    • README.txt
      3.5 KB
      • data/
        • data_clean.zip
          125.64 MB