HyperAI超神经

MedQA 医学文本问答数据集

日期

3 个月前

大小

125.64 MB

机构

MIT
华中科技大学

发布地址

github.com

* 该数据集支持在线使用,点击此处跳转

MedQA 数据集是一个面向医学领域的问答数据集,模拟了美国医疗执照考试 (USMLE) 的风格,由麻省理工大学和华中科技大学的研究团队于 2020 年发布,相关论文成果为「What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams」。该数据集从专业医学考试中收集,涵盖英语、简体中文和繁体中文,分别包含 12,723 、 34,251 和 14,123 个问题,旨在评估模型对医学知识的理解和应用能力。。

MedQA 数据集的构建基于专业医疗执照考试,确保了问题的高质量和专业性。除了问题数据外,还收集并发布了一个大规模的医学教科书语料库,阅读理解模型可以从中获取回答问题的必要知识。数据集分为训练集、开发集和测试集,分别用于模型训练、验证和测试。

数据集的划分,问题和答案的长度统计
MedQA.torrent
做种 2正在下载 1已完成 70总下载次数 291
  • MedQA/
    • README.md
      1.75 KB
    • README.txt
      3.5 KB
      • data/
        • data_clean.zip
          125.64 MB