HyperAIHyperAI

Command Palette

Search for a command to run...

ChemData-Datensatz Für Chemische Aufgaben

Date

vor einem Jahr

Size

242.89 MB

Organization

Shanghaier Labor für künstliche Intelligenz

Paper URL

arxiv.org

Einführung in den Datensatz

Dieser Datensatz wurde 2024 vom Shanghai Artificial Intelligence Laboratory zusammen mit seinem ersten großen wissenschaftlichen Modell, dem Pu Ke Chemical Big Model (ChemLLM), als Open Source zur Verfügung gestellt. Die entsprechenden Ergebnisse der Studie sind „ChemLLM: Ein großes chemisches Sprachmodell".

Der Datensatz umfasst hauptsächlich ChemData700K. Das Forschungsteam hat außerdem die chinesischen und englischen Versionen von ChemBench-4K, ChemPref-10K und dem C-MHChem-Datensatz als Open Source bereitgestellt.

ChemData700K-Datensatz

ChemData700K ist ein großer Datensatz zur Feinabstimmung von Sprachmodell-Chemiefähigkeiten, der 9 Kernaufgaben der Chemie und 730.000 hochwertige Fragen und Antworten enthält, die aus 1/10 von 7 Millionen Daten stammen. Der Datensatz deckt ein breites Spektrum an chemischem Fachwissen ab und ist in drei Hauptaufgabenkategorien unterteilt (Moleküle, Reaktionen und Domänen).

ChemBench4K-Benchmark-Datensatz

ChemBench ist ein innovativer Benchmark, der aus 9 Aufgaben zu chemischen Molekülen und Reaktionen besteht. Diese 9 Aufgaben sind dieselben wie in ChemData. Dieser Benchmark bietet eine Grundlage für die objektive Messung der Kompetenz im LLM-Studiengang Chemie. ChemBench enthält 4.100 Multiple-Choice-Fragen mit einer richtigen Antwort.

ChemPref-10K-Datensatz

Dieser Datensatz kann zur Optimierung von Sprachmodellen verwendet werden, damit sie den menschlichen Vorlieben entsprechen, und enthält sowohl eine englische als auch eine chinesische Version.

C-MHChem-Datensatz

C-MHChem ist ein hochwertiger, vollständig manuell verfasster Multiple-Choice-Test, der aus 600 Fragen besteht, die in den letzten 25 Jahren bei Aufnahmeprüfungen für Mittelschulen, Gymnasien und Hochschulen in verschiedenen Teilen Chinas gesammelt wurden.

ChemLLM-Dataset.torrent
Seeding 1Downloading 0Completed 223Total Downloads 847
  • ChemLLM-Dataset/
    • README.md
      2.09 KB
    • README.txt
      4.18 KB
      • data/
        • chem.zip
          242.89 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp