ChemBench4K Benchmark-Datensatz Zur Bewertung Der Chemischen Fähigkeiten
Datum
Größe
Veröffentlichungs-URL
Kategorien
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Dieser Datensatz wurde 2024 vom Shanghai Artificial Intelligence Laboratory zusammen mit seinem ersten großen wissenschaftlichen Modell, dem Pu Ke Chemical Big Model (ChemLLM), als Open Source zur Verfügung gestellt. Die entsprechenden Ergebnisse der Studie sind „ChemLLM: Ein großes chemisches Sprachmodell".
Der Datensatz umfasst hauptsächlich ChemBench-4K, und das Forschungsteam hat auch Open Source Chinesische und englische Versionen der Datensätze ChemData700K, ChemPref-10K und C-MHChem.
Hintergrund
Leistungsbenchmarking für Chemikalien im großen Maßstab Die meisten bestehenden Leistungsbenchmarks für chemische Aufgaben sind für Expertenmodelle bestimmter Aufgaben wie MoleculeNet konzipiert. Für die Prüfung von LLMs sind sie jedoch möglicherweise nicht geeignet. Die meisten der bestehenden groß angelegten Sprachmodell-Benchmarks in der Chemie übernehmen das Frage-Antwort-Format und verwenden BLEU und ROUGE als Bewertungsmetriken. Diese Art der Auswertung kann jedoch erheblich durch den Ausgabestil des Sprachmodells beeinflusst werden und ist nicht für Szenarien geeignet, in denen die Richtigkeit wissenschaftlicher Fakten im Vordergrund steht. In diesem Fall können die Antworten, wenn sie einen ähnlichen Sprachstil aufweisen, trotz sachlicher Fehler sogar eine höhere Bewertung erhalten. Aus diesem Grund hat sich das Forschungsteam für die Erstellung eines Chemie-Benchmarks entschieden, der aus Multiple-Choice-Fragen besteht und den aktuellen gängigen Bewertungssätzen MMLU 30 und C-Eval ähnelt.
Datensatzübersicht
Um das Chemieverständnis von Sprachmodellen streng zu bewerten, hat das Forschungsteam ChemBench eingeführt, einen innovativen Benchmark, der aus neun Aufgaben zu chemischen Molekülen und Reaktionen besteht (die gleichen Aufgaben wie in ChemData), mit 4.100 Multiple-Choice-Fragen mit einer richtigen Antwort. Dieser Benchmark legt den Grundstein für die objektive Messung der Chemie großer Sprachmodelle.
Die Verteilung aller Aufgaben in ChemBench ist in der Abbildung dargestellt.
Einführung in andere Open-Source-Datensätze
ChemBench-4K-Datensatz
ChemData700K ist ein großer Datensatz zur Feinabstimmung von Sprachmodell-Chemiefähigkeiten, der neun Kernaufgaben der Chemie und 730.000 hochwertige Fragen und Antworten enthält, die aus 1/10 der sieben Millionen Daten stammen. Der Datensatz deckt ein breites Spektrum an chemischem Fachwissen ab und folgt drei Hauptaufgabenkategorien (Moleküle, Reaktionen und Domänen).
ChemPref-10K-Datensatz
Dieser Datensatz kann zur Optimierung von Sprachmodellen verwendet werden, damit sie den menschlichen Vorlieben entsprechen, und enthält sowohl eine englische als auch eine chinesische Version.
C-MHChem-Datensatz
C-MHChem ist ein hochwertiger, vollständig manuell verfasster Multiple-Choice-Test, der aus 600 Fragen besteht, die in den letzten 25 Jahren bei Aufnahmeprüfungen für Mittelschulen, Gymnasien und Hochschulen in verschiedenen Teilen Chinas gesammelt wurden.