@misc{zhang2024chemllm, title={ChemLLM: A Chemical Large Language Model}, author={Di Zhang and Wei Liu and Qian Tan and Jingdan Chen and Hang Yan and Yuliang Yan and Jiatong Li and Weiran Huang and Xiangyu Yue and Dongzhan Zhou and Shufei Zhang and Mao Su and Han-Sen Zhong and Yuqiang Li and Wanli Ouyang}, year={2024}, eprint={2402.06852}, archivePrefix={arXiv}, primaryClass={cs.AI} }

Datum

vor 2 Jahren

Größe

242.89 MB

Organisation

Paper-URL

arxiv.org

Einführung in den Datensatz

Dieser Datensatz wurde 2024 vom Shanghai Artificial Intelligence Laboratory zusammen mit seinem ersten großen wissenschaftlichen Modell, dem Pu Ke Chemical Big Model (ChemLLM), als Open Source zur Verfügung gestellt. Die entsprechenden Ergebnisse der Studie sind „ChemLLM: Ein großes chemisches Sprachmodell". Der Datensatz umfasst hauptsächlich ChemData700K. Das Forschungsteam hat außerdem die chinesischen und englischen Versionen von ChemBench-4K, ChemPref-10K und dem C-MHChem-Datensatz als Open Source bereitgestellt.

ChemData700K-Datensatz

ChemData700K ist ein großer Datensatz zur Feinabstimmung von Sprachmodell-Chemiefähigkeiten, der 9 Kernaufgaben der Chemie und 730.000 hochwertige Fragen und Antworten enthält, die aus 1/10 von 7 Millionen Daten stammen. Der Datensatz deckt ein breites Spektrum an chemischem Fachwissen ab und ist in drei Hauptaufgabenkategorien unterteilt (Moleküle, Reaktionen und Domänen).

ChemBench4K-Benchmark-Datensatz

ChemBench ist ein innovativer Benchmark, der aus 9 Aufgaben zu chemischen Molekülen und Reaktionen besteht. Diese 9 Aufgaben sind dieselben wie in ChemData. Dieser Benchmark bietet eine Grundlage für die objektive Messung der Kompetenz im LLM-Studiengang Chemie. ChemBench enthält 4.100 Multiple-Choice-Fragen mit einer richtigen Antwort.

ChemPref-10K-Datensatz

Dieser Datensatz kann zur Optimierung von Sprachmodellen verwendet werden, damit sie den menschlichen Vorlieben entsprechen, und enthält sowohl eine englische als auch eine chinesische Version.

C-MHChem-Datensatz

C-MHChem ist ein hochwertiger, vollständig manuell verfasster Multiple-Choice-Test, der aus 600 Fragen besteht, die in den letzten 25 Jahren bei Aufnahmeprüfungen für Mittelschulen, Gymnasien und Hochschulen in verschiedenen Teilen Chinas gesammelt wurden.

Zitat

@misc{zhang2024chemllm,
title={ChemLLM: A Chemical Large Language Model},
author={Di Zhang and Wei Liu and Qian Tan and Jingdan Chen and Hang Yan and Yuliang Yan and Jiatong Li and Weiran Huang and Xiangyu Yue and Dongzhan Zhou and Shufei Zhang and Mao Su and Han-Sen Zhong and Yuqiang Li and Wanli Ouyang},
year={2024},
eprint={2402.06852},
archivePrefix={arXiv},
primaryClass={cs.AI}
}

ChemLLM-Dataset.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 272Gesamtdownloads 924

ChemLLM-Dataset/
- README.md
  2.09 KB
- README.txt
  4.18 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

vor einem Tag

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

vor 3 Tagen

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

vor 5 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ChemData-Datensatz Für Chemische Aufgaben

Einführung in den Datensatz

ChemData700K-Datensatz

ChemBench4K-Benchmark-Datensatz

ChemPref-10K-Datensatz

C-MHChem-Datensatz

Zitat

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ChemData-Datensatz Für Chemische Aufgaben

Einführung in den Datensatz

ChemData700K-Datensatz

ChemBench4K-Benchmark-Datensatz

ChemPref-10K-Datensatz

C-MHChem-Datensatz

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

VisCoR-55K Visual Inference Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

MDPBench Multilingual Document Parsing Benchmark Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ChemData-Datensatz Für Chemische Aufgaben

Einführung in den Datensatz

ChemData700K-Datensatz

ChemBench4K-Benchmark-Datensatz

ChemPref-10K-Datensatz

C-MHChem-Datensatz

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

VisCoR-55K Visual Inference Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

MDPBench Multilingual Document Parsing Benchmark Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

VisCoR-55K Visual Inference Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

MDPBench Multilingual Document Parsing Benchmark Dataset

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

VisCoR-55K Visual Inference Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

MDPBench Multilingual Document Parsing Benchmark Dataset