HyperAI

Ensemble De Données De Référence Pour L'évaluation Des Capacités Chimiques ChemBench4K

Date

il y a 9 mois

Taille

509.65 KB

Organisation

Laboratoire d'intelligence artificielle de Shanghai

URL de publication

huggingface.co

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Cet ensemble de données a été rendu open source par le Shanghai Artificial Intelligence Laboratory en 2024 avec son premier grand modèle scientifique, le Pu Ke Chemical Big Model (ChemLLM). Les résultats de l'article connexe sont «ChemLLM : un modèle de langage chimique à grande échelle".

L'ensemble de données comprend principalement ChemBench-4K, et l'équipe de recherche a également ouvert le code source Versions chinoise et anglaise des jeux de données ChemData700K, ChemPref-10K et C-MHChem.

Arrière-plan

Analyse comparative des performances chimiques à grande échelle La plupart des analyses comparatives des performances des tâches chimiques existantes sont conçues pour des modèles experts de tâches spécifiques, tels que MoleculeNet. Cependant, ils peuvent ne pas être adaptés aux tests de LLM. La plupart des modèles de langage à grande échelle existants en chimie adoptent le format questions-réponses et utilisent BLEU et ROUGE comme mesures d'évaluation. Cependant, ces types d’évaluations peuvent être considérablement affectés par le style de sortie du modèle linguistique et ne conviennent pas aux scénarios où l’exactitude des faits scientifiques est soulignée. Dans ce cas, si les réponses présentent des styles de langage similaires, elles peuvent même recevoir des scores d’évaluation plus élevés malgré le fait qu’elles contiennent des erreurs factuelles. L'équipe de recherche a donc choisi de construire un référentiel de chimie composé de questions à choix multiples, similaires aux ensembles d'évaluation courants actuels MMLU 30 et C-Eval.

Présentation de l'ensemble de données

Pour évaluer rigoureusement la compréhension de la chimie par les modèles linguistiques, l’équipe de recherche a lancé ChemBench, un benchmark innovant composé de neuf tâches sur les molécules et réactions chimiques, les mêmes tâches que dans ChemData, avec 4 100 questions à choix multiples avec une seule réponse correcte. Ce benchmark pose les bases d’une mesure objective de la chimie des grands modèles linguistiques.

La répartition de toutes les tâches dans ChemBench est illustrée dans la figure.

 

Introduction à d'autres ensembles de données open source

Cliquez ici pour utiliser les versions chinoise et anglaise des ensembles de données ChemData700K, ChemPref-10K et C-MHChem

Ensemble de données ChemBench-4K

ChemData700K est un ensemble de données de réglage fin des capacités d'instruction en chimie de grand modèle de langage qui comprend neuf tâches de chimie de base et 730 000 questions et réponses de haute qualité, échantillonnées à partir de 1/10 des sept millions de données. L'ensemble de données couvre un large éventail de connaissances dans le domaine chimique et suit trois catégories de tâches principales (molécules, réactions et domaines).

Ensemble de données ChemPref-10K

Cet ensemble de données peut être utilisé pour optimiser les modèles linguistiques afin de correspondre aux préférences humaines et contient des versions anglaise et chinoise.

Ensemble de données C-MHChem

C-MHChem est un test de référence à choix multiples de haute qualité, entièrement rédigé manuellement, composé de 600 questions collectées lors d'examens d'entrée au collège, au lycée et à l'université dans diverses régions de Chine au cours des 25 dernières années.

ChemBench4K.torrent
Partage 2Téléchargement 1Terminés 70Téléchargements totaux 110
  • ChemBench4K/
    • README.md
      3.08 KB
    • README.txt
      6.17 KB
      • data/
        • ChemBench4K.zip
          509.65 KB