HyperAI

ChemData-Datensatz Für Chemische Aufgaben

Datum

vor 9 Monaten

Größe

242.89 MB

Organisation

Shanghaier Labor für künstliche Intelligenz

Veröffentlichungs-URL

huggingface.co

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Einführung in den Datensatz

Dieser Datensatz wurde 2024 vom Shanghai Artificial Intelligence Laboratory zusammen mit seinem ersten großen wissenschaftlichen Modell, dem Pu Ke Chemical Big Model (ChemLLM), als Open Source zur Verfügung gestellt. Die entsprechenden Ergebnisse der Studie sind „ChemLLM: Ein großes chemisches Sprachmodell".

Der Datensatz umfasst hauptsächlich ChemData700K. Das Forschungsteam hat außerdem die chinesischen und englischen Versionen von ChemBench-4K, ChemPref-10K und dem C-MHChem-Datensatz als Open Source bereitgestellt.

ChemData700K-Datensatz

ChemData700K ist ein großer Datensatz zur Feinabstimmung von Sprachmodell-Chemiefähigkeiten, der 9 Kernaufgaben der Chemie und 730.000 hochwertige Fragen und Antworten enthält, die aus 1/10 von 7 Millionen Daten stammen. Der Datensatz deckt ein breites Spektrum an chemischem Fachwissen ab und ist in drei Hauptaufgabenkategorien unterteilt (Moleküle, Reaktionen und Domänen).

ChemBench4K-Benchmark-Datensatz

ChemBench ist ein innovativer Benchmark, der aus 9 Aufgaben zu chemischen Molekülen und Reaktionen besteht. Diese 9 Aufgaben sind dieselben wie in ChemData. Dieser Benchmark bietet eine Grundlage für die objektive Messung der Kompetenz im LLM-Studiengang Chemie. ChemBench enthält 4.100 Multiple-Choice-Fragen mit einer richtigen Antwort.

ChemPref-10K-Datensatz

Dieser Datensatz kann zur Optimierung von Sprachmodellen verwendet werden, damit sie den menschlichen Vorlieben entsprechen, und enthält sowohl eine englische als auch eine chinesische Version.

C-MHChem-Datensatz

C-MHChem ist ein hochwertiger, vollständig manuell verfasster Multiple-Choice-Test, der aus 600 Fragen besteht, die in den letzten 25 Jahren bei Aufnahmeprüfungen für Mittelschulen, Gymnasien und Hochschulen in verschiedenen Teilen Chinas gesammelt wurden.

ChemLLM-Dataset.torrent
Seeding 1Herunterladen 1Abgeschlossen 126Gesamtdownloads 467
  • ChemLLM-Dataset/
    • README.md
      2.09 KB
    • README.txt
      4.18 KB
      • data/
        • chem.zip
          242.89 MB