HyperAI

Ensemble De Données De Tâches Chimiques ChemData

Date

il y a 9 mois

Taille

242.89 MB

Organisation

Laboratoire d'intelligence artificielle de Shanghai

URL de publication

huggingface.co

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Introduction à l'ensemble de données

Cet ensemble de données a été rendu open source par le Shanghai Artificial Intelligence Laboratory en 2024 avec son premier grand modèle scientifique, le Pu Ke Chemical Big Model (ChemLLM). Les résultats de l'article connexe sont «ChemLLM : un modèle de langage chimique à grande échelle".

L'ensemble de données comprend principalement ChemData700K. L'équipe de recherche a également ouvert les versions chinoise et anglaise de ChemBench-4K, ChemPref-10K et de l'ensemble de données C-MHChem.

Ensemble de données ChemData700K

ChemData700K est un ensemble de données de réglage fin des capacités d'instruction en chimie de grand modèle de langage qui comprend 9 tâches de chimie de base et 730 000 questions et réponses de haute qualité, échantillonnées à partir de 1/10 de 7 millions de données. L'ensemble de données couvre un large éventail de connaissances du domaine chimique et est divisé en 3 catégories de tâches principales (molécules, réactions et domaines).

Ensemble de données de référence ChemBench4K

ChemBench est un benchmark innovant composé de 9 tâches sur les molécules et réactions chimiques. Ces 9 tâches sont les mêmes que celles de ChemData. Ce point de référence fournit une base pour mesurer objectivement la compétence en chimie LLM. ChemBench contient 4 100 questions à choix multiples avec une seule réponse correcte.

Ensemble de données ChemPref-10K

Cet ensemble de données peut être utilisé pour optimiser les modèles linguistiques afin de correspondre aux préférences humaines et contient des versions anglaise et chinoise.

Ensemble de données C-MHChem

C-MHChem est un test de référence à choix multiples de haute qualité, entièrement rédigé manuellement, composé de 600 questions collectées lors d'examens d'entrée au collège, au lycée et à l'université dans diverses régions de Chine au cours des 25 dernières années.

ChemLLM-Dataset.torrent
Partage 1Téléchargement 1Terminés 126Téléchargements totaux 467
  • ChemLLM-Dataset/
    • README.md
      2.09 KB
    • README.txt
      4.18 KB
      • data/
        • chem.zip
          242.89 MB