ChemBench4K 化学能力評価ベンチマーク データ セット
※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。
このデータセットは、最初の科学的大規模モデル Pulco Chemistry Large Model (ChemlLM) とともに、2024 年に上海人工知能研究所によってオープンソース化されました。関連する論文結果は「」です。ChemLLM: 化学大規模言語モデル”。
このデータセットには主に ChemBench-4K が含まれており、研究チームはオープンソース化も行っています ChemData700K、ChemPref-10K、および C-MHChem データセットの中国語版と英語版。
研究の背景
大規模な化学パフォーマンス インデックス評価 既存の化学タスク パフォーマンス インデックス評価のほとんどは、MoleculeNet などの特定のタスクのエキスパート モデル向けに設計されています。ただし、LLM のテストには適していない可能性があります。既存の化学大規模言語モデルベンチマークの多くは一問一答形式を採用しており、評価基準としてBLEUとROUGEを使用しています。ただし、この種の評価は言語モデルの出力スタイルに大きく影響される可能性があり、科学的事実の正確さが重視されるシナリオには適していません。この場合、事実上の誤りが含まれているにもかかわらず、回答が同様の言語スタイルを示している場合、回答はより高い評価スコアを獲得することさえあります。したがって、研究チームは、現在の主流の評価セットである MMLU 30 および C-Eval と同様の、多肢選択式の質問で構成される化学ベンチマークを構築することを選択しました。
データセットの概要
言語モデルによる化学の理解を厳密に評価するために、研究チームは ChemBench を立ち上げました。これは、化学分子と反応に関する 9 つのタスクで構成され、ChemData のものと同一であり、4,100 を超える多肢選択問題が含まれており、そのうちの 1 つが正解です。答え。このベンチマークは、大規模な言語モデルの化学反応を客観的に測定するための基礎を築きます。
ChemBench のすべてのタスクの分布を図に示します。
他のオープンソース データセットの紹介
ChemData700K、ChemPref-10K、および C-MHChem データセットの中国語版と英語版を使用するには、ここをクリックしてください
ChemBench-4K データセット
ChemData700K は、700 万個のデータの 1/10 からサンプリングされた 9 つのコア化学タスクと 730K の高品質な質問と回答を含む、大規模な言語モデルの化学能力指示微調整データ セットです。このデータセットは幅広い化学ドメインの知識をカバーしており、3 つの主要なタスク カテゴリ (分子、反応、ドメイン) に従っています。
ChemPref-10K データセット
このデータセットは、人間の好みに合わせて言語モデルを最適化するために使用でき、英語版と中国語版の両方で利用できます。
C-MHChem データセット
C-MHChem は、過去 25 年間に中国全土の中学および高校で行われた大学入学試験問題から収集された、完全に手書きで書かれた高品質の多肢選択問題 600 問を含むベンチマークです。