HyperAI

ChemBench4K Benchmark-Datensatz Zur Bewertung Der Chemischen Fähigkeiten

Datum

vor 9 Monaten

Größe

509.65 KB

Organisation

Shanghaier Labor für künstliche Intelligenz

Veröffentlichungs-URL

huggingface.co

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Dieser Datensatz wurde 2024 vom Shanghai Artificial Intelligence Laboratory zusammen mit seinem ersten großen wissenschaftlichen Modell, dem Pu Ke Chemical Big Model (ChemLLM), als Open Source zur Verfügung gestellt. Die entsprechenden Ergebnisse der Studie sind „ChemLLM: Ein großes chemisches Sprachmodell".

Der Datensatz umfasst hauptsächlich ChemBench-4K, und das Forschungsteam hat auch Open Source Chinesische und englische Versionen der Datensätze ChemData700K, ChemPref-10K und C-MHChem.

Hintergrund

Leistungsbenchmarking für Chemikalien im großen Maßstab Die meisten bestehenden Leistungsbenchmarks für chemische Aufgaben sind für Expertenmodelle bestimmter Aufgaben wie MoleculeNet konzipiert. Für die Prüfung von LLMs sind sie jedoch möglicherweise nicht geeignet. Die meisten der bestehenden groß angelegten Sprachmodell-Benchmarks in der Chemie übernehmen das Frage-Antwort-Format und verwenden BLEU und ROUGE als Bewertungsmetriken. Diese Art der Auswertung kann jedoch erheblich durch den Ausgabestil des Sprachmodells beeinflusst werden und ist nicht für Szenarien geeignet, in denen die Richtigkeit wissenschaftlicher Fakten im Vordergrund steht. In diesem Fall können die Antworten, wenn sie einen ähnlichen Sprachstil aufweisen, trotz sachlicher Fehler sogar eine höhere Bewertung erhalten. Aus diesem Grund hat sich das Forschungsteam für die Erstellung eines Chemie-Benchmarks entschieden, der aus Multiple-Choice-Fragen besteht und den aktuellen gängigen Bewertungssätzen MMLU 30 und C-Eval ähnelt.

Datensatzübersicht

Um das Chemieverständnis von Sprachmodellen streng zu bewerten, hat das Forschungsteam ChemBench eingeführt, einen innovativen Benchmark, der aus neun Aufgaben zu chemischen Molekülen und Reaktionen besteht (die gleichen Aufgaben wie in ChemData), mit 4.100 Multiple-Choice-Fragen mit einer richtigen Antwort. Dieser Benchmark legt den Grundstein für die objektive Messung der Chemie großer Sprachmodelle.

Die Verteilung aller Aufgaben in ChemBench ist in der Abbildung dargestellt.

 

Einführung in andere Open-Source-Datensätze

Klicken Sie hier, um die chinesischen und englischen Versionen der Datensätze ChemData700K, ChemPref-10K und C-MHChem zu verwenden

ChemBench-4K-Datensatz

ChemData700K ist ein großer Datensatz zur Feinabstimmung von Sprachmodell-Chemiefähigkeiten, der neun Kernaufgaben der Chemie und 730.000 hochwertige Fragen und Antworten enthält, die aus 1/10 der sieben Millionen Daten stammen. Der Datensatz deckt ein breites Spektrum an chemischem Fachwissen ab und folgt drei Hauptaufgabenkategorien (Moleküle, Reaktionen und Domänen).

ChemPref-10K-Datensatz

Dieser Datensatz kann zur Optimierung von Sprachmodellen verwendet werden, damit sie den menschlichen Vorlieben entsprechen, und enthält sowohl eine englische als auch eine chinesische Version.

C-MHChem-Datensatz

C-MHChem ist ein hochwertiger, vollständig manuell verfasster Multiple-Choice-Test, der aus 600 Fragen besteht, die in den letzten 25 Jahren bei Aufnahmeprüfungen für Mittelschulen, Gymnasien und Hochschulen in verschiedenen Teilen Chinas gesammelt wurden.

ChemBench4K.torrent
Seeding 1Herunterladen 1Abgeschlossen 70Gesamtdownloads 110
  • ChemBench4K/
    • README.md
      3.08 KB
    • README.txt
      6.17 KB
      • data/
        • ChemBench4K.zip
          509.65 KB