ChemData-Datensatz Für Chemische Aufgaben
Datum
Größe
Veröffentlichungs-URL
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Einführung in den Datensatz
Dieser Datensatz wurde 2024 vom Shanghai Artificial Intelligence Laboratory zusammen mit seinem ersten großen wissenschaftlichen Modell, dem Pu Ke Chemical Big Model (ChemLLM), als Open Source zur Verfügung gestellt. Die entsprechenden Ergebnisse der Studie sind „ChemLLM: Ein großes chemisches Sprachmodell".
Der Datensatz umfasst hauptsächlich ChemData700K. Das Forschungsteam hat außerdem die chinesischen und englischen Versionen von ChemBench-4K, ChemPref-10K und dem C-MHChem-Datensatz als Open Source bereitgestellt.
ChemData700K-Datensatz
ChemData700K ist ein großer Datensatz zur Feinabstimmung von Sprachmodell-Chemiefähigkeiten, der 9 Kernaufgaben der Chemie und 730.000 hochwertige Fragen und Antworten enthält, die aus 1/10 von 7 Millionen Daten stammen. Der Datensatz deckt ein breites Spektrum an chemischem Fachwissen ab und ist in drei Hauptaufgabenkategorien unterteilt (Moleküle, Reaktionen und Domänen).
ChemBench4K-Benchmark-Datensatz
ChemBench ist ein innovativer Benchmark, der aus 9 Aufgaben zu chemischen Molekülen und Reaktionen besteht. Diese 9 Aufgaben sind dieselben wie in ChemData. Dieser Benchmark bietet eine Grundlage für die objektive Messung der Kompetenz im LLM-Studiengang Chemie. ChemBench enthält 4.100 Multiple-Choice-Fragen mit einer richtigen Antwort.
ChemPref-10K-Datensatz
Dieser Datensatz kann zur Optimierung von Sprachmodellen verwendet werden, damit sie den menschlichen Vorlieben entsprechen, und enthält sowohl eine englische als auch eine chinesische Version.
C-MHChem-Datensatz
C-MHChem ist ein hochwertiger, vollständig manuell verfasster Multiple-Choice-Test, der aus 600 Fragen besteht, die in den letzten 25 Jahren bei Aufnahmeprüfungen für Mittelschulen, Gymnasien und Hochschulen in verschiedenen Teilen Chinas gesammelt wurden.