该数据集是由上海人工智能实验室于 2024 年与其发布的首个科学大模型浦科化学大模型 (ChemLLM) 一同开源的,相关论文成果为「ChemLLM: A Chemical Large Language Model」。
该数据集主要包括了 ChemBench-4K,研究团队还开源了 ChemData700K 、 ChemPref-10K 的中英文版本和 C-MHChem 数据集。
大规模的化学性能指标评测现有的化学任务性能指标评测大多是针对特定任务的专家模型而设计的,例如 MoleculeNet 。但是,它们可能不适合测试 LLM 。现有的化学大型语言模型基准测试大多采用问答形式,并使用 BLEU 和 ROUGE 作为评估标准。然而,这些类型的评估可能会受到语言模型的输出风格的显著影响,并且不适用于强调科学事实的正确性的场景。在这种情况下,如果答案表现出相似的语言风格,尽管包含事实错误,它们甚至可以获得更高的评估分数。因此,研究团队选择构建一个由多项选择题组成的化学基准,类似于当前主流的评价集 MMLU 30 和 C-Eval 。
为了严格评估语言模型对化学的理解,研究团队推出了 ChemBench,这是一个创新的基准,由关于化学分子和反应的 9 个任务组成,这 9 项任务与 ChemData 中的任务相同,包含 4,100 个多项选择题,其中一个为正确答案。该基准为客观衡量大语言模型的化学水平奠定了基础。
ChemBench 中所有任务的分布如图所示。
点击此处使用 ChemData700K 、 ChemPref-10K 的中英文版本和 C-MHChem 数据集
ChemData700K 是一个包含了九项化学核心任务,730K 个高质量问答的大语言模型化学能力指令微调数据集, 采样自七百万条数据的 1/10 。该数据集涵盖广泛的化学领域知识,并遵循三个主要任务类别(分子、反应和领域)。
该数据集可用于优化语言模型以符合人类偏好的方法,包含英文和中文两个版本。
C-MHChem 是一个包含了 600 个高质量的全人工编写的单选题测评基准,收集自过去 25 年间中国各地初高中中高考测试题目。
做种 1
下载中 0
已完成 24
总下载 48