@misc{zhang2024chemllm, title={ChemLLM: A Chemical Large Language Model}, author={Di Zhang and Wei Liu and Qian Tan and Jingdan Chen and Hang Yan and Yuliang Yan and Jiatong Li and Weiran Huang and Xiangyu Yue and Dongzhan Zhou and Shufei Zhang and Mao Su and Han-Sen Zhong and Yuqiang Li and Wanli Ouyang}, year={2024}, eprint={2402.06852}, archivePrefix={arXiv}, primaryClass={cs.AI} }

日付

2年前

サイズ

242.89 MB

データセット構成

論文URL

arxiv.org

タグ

サイエンスのためのAI

データセットの紹介

このデータセットは、最初の科学的大規模モデル Pulco Chemistry Large Model (ChemlLM) とともに、2024 年に上海人工知能研究所によってオープンソース化されました。関連する論文結果は「」です。ChemLLM: 化学大規模言語モデル”。データセットには主に ChemData700K が含まれており、研究チームは ChemBench-4K、ChemPref-10K、および C-MHChem データセットの中国語版と英語版もオープンソース化しました。

ChemData700K データセット

ChemData700K は、700 万個のデータの 1/10 からサンプリングされた、9 つのコア化学タスクと 730K の高品質な質問と回答を含む、大規模な言語モデルの化学能力指示の微調整データセットです。このデータセットは幅広い化学ドメインの知識をカバーしており、3 つの主要なタスクカテゴリ (分子、反応、ドメイン) に分類されています。

ChemBench4K ベンチマークデータセット

ChemBench は、化学分子と反応に関する 9 つのタスクで構成される革新的なベンチマークです。これら 9 つのタスクは ChemData のタスクと同じです。このベンチマークは、LLM 化学の熟練度を客観的に測定するための基礎を提供します。 ChemBench には、正解が 1 つある多肢選択式の質問が 4,100 件含まれています。

ChemPref-10K データセット

このデータセットは、人間の好みに合わせて言語モデルを最適化するために使用でき、英語版と中国語版の両方で利用できます。

C-MHChem データセット

C-MHChem は、過去 25 年間に中国全土の中学および高校で行われた大学入学試験問題から収集された、完全に手書きで書かれた高品質の多肢選択問題 600 問を含むベンチマークです。

引用

@misc{zhang2024chemllm,
title={ChemLLM: A Chemical Large Language Model},
author={Di Zhang and Wei Liu and Qian Tan and Jingdan Chen and Hang Yan and Yuliang Yan and Jiatong Li and Weiran Huang and Xiangyu Yue and Dongzhan Zhou and Shufei Zhang and Mao Su and Han-Sen Zhong and Yuqiang Li and Wanli Ouyang},
year={2024},
eprint={2402.06852},
archivePrefix={arXiv},
primaryClass={cs.AI}
}

ChemLLM-Dataset.torrent

シーディング 1ダウンロード中 0完了 272総ダウンロード数 924

ChemLLM-Dataset/
- README.md
  2.09 KB
- README.txt
  4.18 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

ChemData 化学タスク データ セット

データセットの紹介

ChemData700K データセット

ChemBench4K ベンチマーク データセット

ChemPref-10K データセット

C-MHChem データセット

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

ChemData 化学タスク データ セット

データセットの紹介

ChemData700K データセット

ChemBench4K ベンチマーク データセット

ChemPref-10K データセット

C-MHChem データセット

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

VisCoR-55K ビジュアル推論データセット

QCalEval 量子較正グラフの理解データセット

MDPBench 多言語文書解析ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

ChemData 化学タスク データ セット

データセットの紹介

ChemData700K データセット

ChemBench4K ベンチマーク データセット

ChemPref-10K データセット

C-MHChem データセット

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

VisCoR-55K ビジュアル推論データセット

QCalEval 量子較正グラフの理解データセット

MDPBench 多言語文書解析ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

VisCoR-55K ビジュアル推論データセット

QCalEval 量子較正グラフの理解データセット

MDPBench 多言語文書解析ベンチマークデータセット

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

VisCoR-55K ビジュアル推論データセット

QCalEval 量子較正グラフの理解データセット

MDPBench 多言語文書解析ベンチマークデータセット

ChemData 化学タスクデータセット

ChemBench4K ベンチマークデータセット

ChemData 化学タスクデータセット

ChemBench4K ベンチマークデータセット

ChemData 化学タスクデータセット

ChemBench4K ベンチマークデータセット