该数据集是由上海人工智能实验室于 2024 年与其发布的首个科学大模型浦科化学大模型 (ChemLLM) 一同开源的,相关论文成果为「ChemLLM: A Chemical Large Language Model」。
该数据集主要包括了 ChemData700K,研究团队还开源了 ChemBench-4K 、 ChemPref-10K 的中英文版本和 C-MHChem 数据集。
ChemData700K 是一个包含了 9 项化学核心任务,730K 个高质量问答的大语言模型化学能力指令微调数据集, 采样自七百万条数据的 1/10 。该数据集涵盖广泛的化学领域知识,并分为 3 个主要任务类别(分子、反应和领域)。
ChemBench 是一个创新的基准,由关于化学分子和反应的 9 个任务组成。这 9 项任务与 ChemData 中的任务相同。该基准为客观衡量法学硕士化学水平奠定基础。 ChemBench 包含 4,100 个多项选择题,其中一个为正确答案。
该数据集可用于优化语言模型以符合人类偏好的方法,包含英文和中文两个版本。
C-MHChem 是一个包含了 600 个高质量的全人工编写的单选题测评基准,收集自过去 25 年间中国各地初高中中高考测试题目。
做种 1
下载中 0
已完成 52
总下载 217