Date

il y a 2 ans

Taille

509.65 KB

Organisation

URL du document

arxiv.org

Balises

IA Pour La Science

Cet ensemble de données a été rendu open source par le Shanghai Artificial Intelligence Laboratory en 2024 avec son premier grand modèle scientifique, le Pu Ke Chemical Big Model (ChemLLM). Les résultats de l'article connexe sont «ChemLLM : un modèle de langage chimique à grande échelle". L'ensemble de données comprend principalement ChemBench-4K, et l'équipe de recherche a également ouvert le code source Versions chinoise et anglaise des jeux de données ChemData700K, ChemPref-10K et C-MHChem.

Arrière-plan

Analyse comparative des performances chimiques à grande échelle La plupart des analyses comparatives des performances des tâches chimiques existantes sont conçues pour des modèles experts de tâches spécifiques, tels que MoleculeNet. Cependant, ils peuvent ne pas être adaptés aux tests de LLM. La plupart des modèles de langage à grande échelle existants en chimie adoptent le format questions-réponses et utilisent BLEU et ROUGE comme mesures d'évaluation. Cependant, ces types d’évaluations peuvent être considérablement affectés par le style de sortie du modèle linguistique et ne conviennent pas aux scénarios où l’exactitude des faits scientifiques est soulignée. Dans ce cas, si les réponses présentent des styles de langage similaires, elles peuvent même recevoir des scores d’évaluation plus élevés malgré le fait qu’elles contiennent des erreurs factuelles. L'équipe de recherche a donc choisi de construire un référentiel de chimie composé de questions à choix multiples, similaires aux ensembles d'évaluation courants actuels MMLU 30 et C-Eval.

Présentation de l'ensemble de données

Pour évaluer rigoureusement la compréhension de la chimie par les modèles linguistiques, l’équipe de recherche a lancé ChemBench, un benchmark innovant composé de neuf tâches sur les molécules et réactions chimiques, les mêmes tâches que dans ChemData, avec 4 100 questions à choix multiples avec une seule réponse correcte. Ce benchmark pose les bases d’une mesure objective de la chimie des grands modèles linguistiques. La répartition de toutes les tâches dans ChemBench est illustrée dans la figure.

Introduction à d'autres ensembles de données open source

Cliquez ici pour utiliser les versions chinoise et anglaise des ensembles de données ChemData700K, ChemPref-10K et C-MHChem

Ensemble de données ChemBench-4K

ChemData700K est un ensemble de données de réglage fin des capacités d'instruction en chimie de grand modèle de langage qui comprend neuf tâches de chimie de base et 730 000 questions et réponses de haute qualité, échantillonnées à partir de 1/10 des sept millions de données. L'ensemble de données couvre un large éventail de connaissances dans le domaine chimique et suit trois catégories de tâches principales (molécules, réactions et domaines).

Ensemble de données ChemPref-10K

Cet ensemble de données peut être utilisé pour optimiser les modèles linguistiques afin de correspondre aux préférences humaines et contient des versions anglaise et chinoise.

Ensemble de données C-MHChem

C-MHChem est un test de référence à choix multiples de haute qualité, entièrement rédigé manuellement, composé de 600 questions collectées lors d'examens d'entrée au collège, au lycée et à l'université dans diverses régions de Chine au cours des 25 dernières années.

ChemBench4K.torrent

Seeding 1Téléchargement 0Terminé 200Total Downloads 372

ChemBench4K/
- README.md
  3.08 KB
- README.txt
  6.17 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

Ensemble De Données EEG THINGS-EEG

il y a 4 mois

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

il y a 4 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a 2 ans

Taille

509.65 KB

Organisation

URL du document

arxiv.org

Balises

IA Pour La Science

Arrière-plan

Présentation de l'ensemble de données

Introduction à d'autres ensembles de données open source

Cliquez ici pour utiliser les versions chinoise et anglaise des ensembles de données ChemData700K, ChemPref-10K et C-MHChem

Ensemble de données ChemBench-4K

Ensemble de données ChemPref-10K

Cet ensemble de données peut être utilisé pour optimiser les modèles linguistiques afin de correspondre aux préférences humaines et contient des versions anglaise et chinoise.

Ensemble de données C-MHChem

ChemBench4K.torrent

Seeding 1Téléchargement 0Terminé 200Total Downloads 372

ChemBench4K/
- README.md
  3.08 KB
- README.txt
  6.17 KB

Ensemble De Données EEG THINGS-EEG

il y a 4 mois

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

il y a 4 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Arrière-plan

Présentation de l'ensemble de données

Introduction à d'autres ensembles de données open source

Ensemble de données ChemBench-4K

Ensemble de données ChemPref-10K

Ensemble de données C-MHChem

Créer de l'IA avec l'IA

HyperAI Newsletters

Arrière-plan

Présentation de l'ensemble de données

Introduction à d'autres ensembles de données open source

Ensemble de données ChemBench-4K

Ensemble de données ChemPref-10K

Ensemble de données C-MHChem

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Créer de l'IA avec l'IA

HyperAI Newsletters

Arrière-plan

Présentation de l'ensemble de données

Introduction à d'autres ensembles de données open source

Ensemble de données ChemBench-4K

Ensemble de données ChemPref-10K

Ensemble de données C-MHChem

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Créer de l'IA avec l'IA

HyperAI Newsletters

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Ensemble De Données RealTimeFaceSwap-10k Pour l'usurpation d'appels Vidéo

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Ensemble De Données RealTimeFaceSwap-10k Pour l'usurpation d'appels Vidéo

Command Palette

Ensemble De Données De Référence Pour l'évaluation Des Capacités Chimiques ChemBench4K

Arrière-plan

Présentation de l'ensemble de données

Introduction à d'autres ensembles de données open source

Ensemble de données ChemBench-4K

Ensemble de données ChemPref-10K

Ensemble de données C-MHChem

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Référence Pour l'évaluation Des Capacités Chimiques ChemBench4K

Arrière-plan

Présentation de l'ensemble de données

Introduction à d'autres ensembles de données open source

Ensemble de données ChemBench-4K

Ensemble de données ChemPref-10K

Ensemble de données C-MHChem

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Référence Pour l'évaluation Des Capacités Chimiques ChemBench4K

Arrière-plan

Présentation de l'ensemble de données

Introduction à d'autres ensembles de données open source

Ensemble de données ChemBench-4K

Ensemble de données ChemPref-10K

Ensemble de données C-MHChem

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Créer de l'IA avec l'IA

HyperAI Newsletters

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Ensemble De Données RealTimeFaceSwap-10k Pour l'usurpation d'appels Vidéo

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données De Transcription De Texte LightOnOCR-mix-0126

Ensemble De Données RealTimeFaceSwap-10k Pour l'usurpation d'appels Vidéo