Command Palette
Search for a command to run...
ChemData 化学タスク データ セット
データセットの紹介
このデータセットは、最初の科学的大規模モデル Pulco Chemistry Large Model (ChemlLM) とともに、2024 年に上海人工知能研究所によってオープンソース化されました。関連する論文結果は「」です。ChemLLM: 化学大規模言語モデル”。 データセットには主に ChemData700K が含まれており、研究チームは ChemBench-4K、ChemPref-10K、および C-MHChem データセットの中国語版と英語版もオープンソース化しました。
ChemData700K データセット
ChemData700K は、700 万個のデータの 1/10 からサンプリングされた、9 つのコア化学タスクと 730K の高品質な質問と回答を含む、大規模な言語モデルの化学能力指示の微調整データ セットです。このデータセットは幅広い化学ドメインの知識をカバーしており、3 つの主要なタスク カテゴリ (分子、反応、ドメイン) に分類されています。
ChemBench4K ベンチマーク データセット
ChemBench は、化学分子と反応に関する 9 つのタスクで構成される革新的なベンチマークです。これら 9 つのタスクは ChemData のタスクと同じです。このベンチマークは、LLM 化学の熟練度を客観的に測定するための基礎を提供します。 ChemBench には、正解が 1 つある多肢選択式の質問が 4,100 件含まれています。
ChemPref-10K データセット
このデータセットは、人間の好みに合わせて言語モデルを最適化するために使用でき、英語版と中国語版の両方で利用できます。
C-MHChem データセット
C-MHChem は、過去 25 年間に中国全土の中学および高校で行われた大学入学試験問題から収集された、完全に手書きで書かれた高品質の多肢選択問題 600 問を含むベンチマークです。
引用
@misc{zhang2024chemllm,
title={ChemLLM: A Chemical Large Language Model},
author={Di Zhang and Wei Liu and Qian Tan and Jingdan Chen and Hang Yan and Yuliang Yan and Jiatong Li and Weiran Huang and Xiangyu Yue and Dongzhan Zhou and Shufei Zhang and Mao Su and Han-Sen Zhong and Yuqiang Li and Wanli Ouyang},
year={2024},
eprint={2402.06852},
archivePrefix={arXiv},
primaryClass={cs.AI}
}