ChemData 化学任务数据集

日期

5 个月前

大小

242.89 MB

机构

上海人工智能实验室

发布地址

huggingface.co

* 该数据集支持在线使用,点击此处跳转

数据集简介

该数据集是由上海人工智能实验室于 2024 年与其发布的首个科学大模型浦科化学大模型 (ChemLLM) 一同开源的,相关论文成果为「ChemLLM: A Chemical Large Language Model」。

该数据集主要包括了 ChemData700K,研究团队还开源了 ChemBench-4K 、 ChemPref-10K 的中英文版本和 C-MHChem 数据集。

ChemData700K 数据集

ChemData700K 是一个包含了 9 项化学核心任务,730K 个高质量问答的大语言模型化学能力指令微调数据集, 采样自七百万条数据的 1/10 。该数据集涵盖广泛的化学领域知识,并分为 3 个主要任务类别(分子、反应和领域)。

ChemBench4K 基准数据集

ChemBench 是一个创新的基准,由关于化学分子和反应的 9 个任务组成。这 9 项任务与 ChemData 中的任务相同。该基准为客观衡量法学硕士化学水平奠定基础。 ChemBench 包含 4,100 个多项选择题,其中一个为正确答案。

ChemPref-10K 数据集

该数据集可用于优化语言模型以符合人类偏好的方法,包含英文和中文两个版本。

C-MHChem 数据集

C-MHChem 是一个包含了 600 个高质量的全人工编写的单选题测评基准,收集自过去 25 年间中国各地初高中中高考测试题目。

ChemLLM-Dataset.torrent

做种 1

下载中 0

已完成 52

总下载 217

  • ChemLLM-Dataset/
    • README.md
      2.09 KB
    • README.txt
      4.18 KB
      • data/
        • chem.zip
          242.89 MB