このデータセットは、最初の科学的大規模モデル Pulco Chemistry Large Model (ChemlLM) とともに、2024 年に上海人工知能研究所によってオープンソース化されました。関連する論文結果は「」です。ChemLLM: 化学大規模言語モデル”。
データセットには主に ChemData700K が含まれており、研究チームは ChemBench-4K、ChemPref-10K、および C-MHChem データセットの中国語版と英語版もオープンソース化しました。
ChemData700K は、700 万個のデータの 1/10 からサンプリングされた、9 つのコア化学タスクと 730K の高品質な質問と回答を含む、大規模な言語モデルの化学能力指示の微調整データ セットです。このデータセットは幅広い化学ドメインの知識をカバーしており、3 つの主要なタスク カテゴリ (分子、反応、ドメイン) に分類されています。
ChemBench は、化学分子と反応に関する 9 つのタスクで構成される革新的なベンチマークです。これら 9 つのタスクは ChemData のタスクと同じです。このベンチマークは、LLM 化学の熟練度を客観的に測定するための基礎を提供します。 ChemBench には、正解が 1 つある多肢選択式の質問が 4,100 件含まれています。
このデータセットは、人間の好みに合わせて言語モデルを最適化するために使用でき、英語版と中国語版の両方で利用できます。
C-MHChem は、過去 25 年間に中国全土の中学および高校で行われた大学入学試験問題から収集された、完全に手書きで書かれた高品質の多肢選択問題 600 問を含むベンチマークです。
做种 2
下载中 0
已完成 52
总下载 215