HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Tâches Chimiques ChemData

Date

il y a un an

Size

242.89 MB

Organization

Laboratoire d'intelligence artificielle de Shanghai

Paper URL

arxiv.org

Introduction à l'ensemble de données

Cet ensemble de données a été rendu open source par le Shanghai Artificial Intelligence Laboratory en 2024 avec son premier grand modèle scientifique, le Pu Ke Chemical Big Model (ChemLLM). Les résultats de l'article connexe sont «ChemLLM : un modèle de langage chimique à grande échelle".

L'ensemble de données comprend principalement ChemData700K. L'équipe de recherche a également ouvert les versions chinoise et anglaise de ChemBench-4K, ChemPref-10K et de l'ensemble de données C-MHChem.

Ensemble de données ChemData700K

ChemData700K est un ensemble de données de réglage fin des capacités d'instruction en chimie de grand modèle de langage qui comprend 9 tâches de chimie de base et 730 000 questions et réponses de haute qualité, échantillonnées à partir de 1/10 de 7 millions de données. L'ensemble de données couvre un large éventail de connaissances du domaine chimique et est divisé en 3 catégories de tâches principales (molécules, réactions et domaines).

Ensemble de données de référence ChemBench4K

ChemBench est un benchmark innovant composé de 9 tâches sur les molécules et réactions chimiques. Ces 9 tâches sont les mêmes que celles de ChemData. Ce point de référence fournit une base pour mesurer objectivement la compétence en chimie LLM. ChemBench contient 4 100 questions à choix multiples avec une seule réponse correcte.

Ensemble de données ChemPref-10K

Cet ensemble de données peut être utilisé pour optimiser les modèles linguistiques afin de correspondre aux préférences humaines et contient des versions anglaise et chinoise.

Ensemble de données C-MHChem

C-MHChem est un test de référence à choix multiples de haute qualité, entièrement rédigé manuellement, composé de 600 questions collectées lors d'examens d'entrée au collège, au lycée et à l'université dans diverses régions de Chine au cours des 25 dernières années.

ChemLLM-Dataset.torrent
Seeding 1Downloading 0Completed 223Total Downloads 847
  • ChemLLM-Dataset/
    • README.md
      2.09 KB
    • README.txt
      4.18 KB
      • data/
        • chem.zip
          242.89 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp