@misc{zhang2024chemllm, title={ChemLLM: A Chemical Large Language Model}, author={Di Zhang and Wei Liu and Qian Tan and Jingdan Chen and Hang Yan and Yuliang Yan and Jiatong Li and Weiran Huang and Xiangyu Yue and Dongzhan Zhou and Shufei Zhang and Mao Su and Han-Sen Zhong and Yuqiang Li and Wanli Ouyang}, year={2024}, eprint={2402.06852}, archivePrefix={arXiv}, primaryClass={cs.AI} }

日期

2 年前

大小

242.89 MB

数据集组织

论文 URL

arxiv.org

标签

AI for Science

数据集简介

该数据集是由上海人工智能实验室于 2024 年与其发布的首个科学大模型浦科化学大模型 (ChemLLM) 一同开源的，相关论文成果为「ChemLLM: A Chemical Large Language Model」。该数据集主要包括了 ChemData700K，研究团队还开源了 ChemBench-4K 、 ChemPref-10K 的中英文版本和 C-MHChem 数据集。

ChemData700K 数据集

ChemData700K 是一个包含了 9 项化学核心任务，730K 个高质量问答的大语言模型化学能力指令微调数据集, 采样自七百万条数据的 1/10 。该数据集涵盖广泛的化学领域知识，并分为 3 个主要任务类别（分子、反应和领域）。

ChemBench4K 基准数据集

ChemBench 是一个创新的基准，由关于化学分子和反应的 9 个任务组成。这 9 项任务与 ChemData 中的任务相同。该基准为客观衡量法学硕士化学水平奠定基础。 ChemBench 包含 4,100 个多项选择题，其中一个为正确答案。

ChemPref-10K 数据集

该数据集可用于优化语言模型以符合人类偏好的方法，包含英文和中文两个版本。

C-MHChem 数据集

C-MHChem 是一个包含了 600 个高质量的全人工编写的单选题测评基准，收集自过去 25 年间中国各地初高中中高考测试题目。

Citation

@misc{zhang2024chemllm,
title={ChemLLM: A Chemical Large Language Model},
author={Di Zhang and Wei Liu and Qian Tan and Jingdan Chen and Hang Yan and Yuliang Yan and Jiatong Li and Weiran Huang and Xiangyu Yue and Dongzhan Zhou and Shufei Zhang and Mao Su and Han-Sen Zhong and Yuqiang Li and Wanli Ouyang},
year={2024},
eprint={2402.06852},
archivePrefix={arXiv},
primaryClass={cs.AI}
}

ChemLLM-Dataset.torrent

做种 1正在下载 0已完成 272总下载量 924

ChemLLM-Dataset/
- README.md
  2.09 KB
- README.txt
  4.18 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

242.89 MB

数据集组织

论文 URL

arxiv.org

标签

AI for Science

数据集简介

ChemData700K 数据集

ChemBench4K 基准数据集

ChemPref-10K 数据集

该数据集可用于优化语言模型以符合人类偏好的方法，包含英文和中文两个版本。

C-MHChem 数据集

C-MHChem 是一个包含了 600 个高质量的全人工编写的单选题测评基准，收集自过去 25 年间中国各地初高中中高考测试题目。

Citation

@misc{zhang2024chemllm,
title={ChemLLM: A Chemical Large Language Model},
author={Di Zhang and Wei Liu and Qian Tan and Jingdan Chen and Hang Yan and Yuliang Yan and Jiatong Li and Weiran Huang and Xiangyu Yue and Dongzhan Zhou and Shufei Zhang and Mao Su and Han-Sen Zhong and Yuqiang Li and Wanli Ouyang},
year={2024},
eprint={2402.06852},
archivePrefix={arXiv},
primaryClass={cs.AI}
}

ChemLLM-Dataset.torrent

做种 1正在下载 0已完成 272总下载量 924

ChemLLM-Dataset/
- README.md
  2.09 KB
- README.txt
  4.18 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

MAKIEVAL 多语言文化知识评估数据集

10 小时前

SAM 3D Artist Objects 3D 物体重建数据集

3 天前

FigureBench 科学插图生成基准数据集

5 天前

SMOL 多语言翻译平行数据集

24 天前

chi-bench 医疗智能体基准评测数据集

11 天前

VisCoR-55K 视觉推理数据集

1 个月前

QCalEval 量子校准图表理解数据集

2 个月前

MDPBench 多语言文档解析基准数据集

6 天前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

ChemData 化学任务数据集

数据集简介

ChemData700K 数据集

ChemBench4K 基准数据集

ChemPref-10K 数据集

C-MHChem 数据集

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ChemData 化学任务数据集

数据集简介

ChemData700K 数据集

ChemBench4K 基准数据集

ChemPref-10K 数据集

C-MHChem 数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

VisCoR-55K 视觉推理数据集

QCalEval 量子校准图表理解数据集

MDPBench 多语言文档解析基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ChemData 化学任务数据集

数据集简介

ChemData700K 数据集

ChemBench4K 基准数据集

ChemPref-10K 数据集

C-MHChem 数据集

Citation

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

VisCoR-55K 视觉推理数据集

QCalEval 量子校准图表理解数据集

MDPBench 多语言文档解析基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

VisCoR-55K 视觉推理数据集

QCalEval 量子校准图表理解数据集

MDPBench 多语言文档解析基准数据集

相关数据集

MAKIEVAL 多语言文化知识评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

SMOL 多语言翻译平行数据集

chi-bench 医疗智能体基准评测数据集

VisCoR-55K 视觉推理数据集

QCalEval 量子校准图表理解数据集

MDPBench 多语言文档解析基准数据集