HyperAI

Couvrant 7 Millions De Données De Questions-réponses, Shanghai AI Lab a Publié ChemLLM, Avec Des Capacités Professionnelles Comparables À GPT-4

特色图像

Avec le développement rapide de la technologie de l’intelligence artificielle, les grands modèles de langage (LLM) ont été largement utilisés dans la recherche scientifique telle que les sciences de la vie, l’océanographie et la chimie des matériaux en raison de leurs puissantes capacités de traitement du langage naturel. Bien que les LLM soient performants dans les tâches liées à la chimie telles que la prédiction des propriétés moléculaires, la génération de molécules et la conception expérimentale, ils sont moins performants lorsqu'ils traitent diverses tâches chimiques en aval.

La raison en est que l’intégration directe des connaissances chimiques dans les modèles linguistiques se heurte à trois défis majeurs :Premièrement, la plupart des informations et des connaissances chimiques sont stockées dans des bases de données structurées. L'utilisation directe de ces données pour former des LLM peut altérer la capacité du modèle à traiter le langage naturel, entraînant une dégénérescence des capacités de dialogue et de raisonnement logique du modèle. Deuxièmement, en chimioinformatique, les molécules sont représentées par des symboles spéciaux, tels que SMILES. Cependant, ce type de données n’est souvent pas conforme aux normes du langage naturel, de sorte que les modèles de langage conventionnels ont du mal à comprendre et à générer correctement de tels symboles ; enfin, il existe de nombreux types de données et de tâches chimiques, et il est très difficile de concevoir un processus de formation flexible qui puisse être généralisé à une variété de tâches chimiques.

En réponse à cela, le laboratoire d'intelligence artificielle de Shanghai a publié le modèle de langage chimique à grande échelle ChemLLM. ChemLLM excelle dans l'exécution de diverses tâches dans la discipline de la chimie grâce à des interactions conversationnelles fluides, en obtenant des performances comparables à celles de GPT-4 sur les tâches principales et en démontrant des performances comparables à celles des LLM de taille similaire dans des scénarios généraux. ChemLLM ouvre de nouvelles voies d'exploration dans la recherche chimique, et l'approche de l'équipe de recherche consistant à intégrer des connaissances chimiques structurées dans un système conversationnel établit une nouvelle norme pour le développement de LLM dans divers domaines scientifiques.

La recherche connexe, intitulée « ChemLLM : un modèle de langage chimique de grande taille », a été publiée sur arXiv. Les résultats ont été open source et fournis gratuitement pour une utilisation commerciale.Actuellement, HyperAI Hyper.ai a lancé le « Déploiement en un clic du grand modèle chimique ChemLLM-7B-chat ». Le tutoriel étape par étape se trouve à la fin de l'article~

Points saillants de la recherche :

* Création et publication en open source de l'ensemble de données chimiques à grande échelle ChemData, ainsi que des versions chinoise et anglaise de l'ensemble de données ChemPref-10K, de l'ensemble de données C-MHChem et de l'ensemble de données de référence d'évaluation des capacités chimiques ChemBench4K

* Création et open source de ChemBench, un test de référence en chimie à grande échelle composé de 4 100 questions à choix multiples et de 9 tâches spécifiques

* Grâce à des tests d'évaluation quantitatifs et qualitatifs, ChemLLM a démontré une bonne expertise chimique et une bonne polyvalence

Adresse du document :
https://arxiv.org/abs/2402.06852

Le tutoriel du grand modèle chimique ChemLLM-7B-chat est désormais en ligne sur hyper.ai. Cliquez sur le lien pour le déployer en un clic :
https://go.hyper.ai/r31KV

Adresse de téléchargement de l'ensemble de données de tâches chimiques ChemData :
https://go.hyper.ai/zMJEl

Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s

Ensemble de données ChemData : un ensemble de données chimiques à grande échelle couvrant 7 millions de données de questions-réponses

Les chercheurs ont collecté des données chimiques à partir de nombreux référentiels de ressources en ligne, notamment PubChem, ChEMBL, ChEBI, ZINC, etc., et sur cette base, ont créé un ensemble de données à grande échelle ChemData pour affiner ChemLLM.

L'ensemble de données ChemData utilise une approche de construction d'instructions basée sur des modèles pour convertir des données chimiques structurées en une forme conversationnelle naturelle adaptée à la formation des LLM.L'ensemble de données contient 7 millions de données de questions-réponses pour affiner les instructions, couvrant un large éventail de connaissances du domaine chimique, et les catégories de données de questions-réponses sont cohérentes avec les molécules, les réactions et d'autres catégories de tâches liées à la chimie.

dans,Les tâches liées aux molécules comprennent la conversion de noms, Caption2Mol, Mol2Caption et la prédiction des propriétés moléculaires.L’objectif principal est d’ajuster la perception des molécules chimiques par le modèle linguistique.

Les tâches liées aux réactions impliquent tous les aspects des réactions chimiques.Y compris la rétrosynthèse, la prédiction du produit, la prédiction du rendement, la prédiction de la température et la prédiction du solvant. À l'exception des données qui peuvent être clairement classées, toutes les autres données sont regroupées en types de tâches spécifiques, améliorant ainsi la compréhension de ChemLLM de l'ensemble de l'espace chimique. La figure ci-dessous montre la proportion de données contenues dans ces trois types de tâches.

Composition des ensembles de données ChemData

Architecture du modèle ChemLLM : Basée sur InternLM2-Base-7B, réglage fin des instructions en deux étapes

Le modèle de langage chimique ChemLLM est formé sur la base du modèle InternLM2-Base-7B via une méthode de réglage fin des instructions en deux étapes. Il réalise non seulement de multiples capacités chimiques, mais conserve également des capacités complètes de langage naturel.

Comme le montre la figure ci-dessous, dans la première phase, l'équipe de recherche a utilisé Multi-Corpus (un corpus complet contenant 1,7 million de paires questions-réponses collectées auprès de Hugging Face) pour améliorer la capacité linguistique générale du modèle et a nommé le modèle obtenu dans la première phase InternLM2-Chat-7B.

Schéma du processus de réglage fin des instructions en deux étapes de ChemLLM

Dans la deuxième phase, l'équipe de recherche a affiné le modèle en utilisant un ensemble de données mixte de ChemData et Multi-Corpus, où ChemData a été utilisé pour améliorer les connaissances chimiques du modèle et Multi-Corpus a été utilisé pour préserver les capacités générales du modèle. Après deux étapes de perfectionnement pédagogique, la polyvalence du ChemLLM dans le domaine de la chimie est améliorée.

ChemBench Benchmark : réduire l'impact du style de sortie du modèle linguistique sur les résultats d'évaluation

Les modèles de référence de chimie à grande échelle existants sont principalement présentés sous forme de questions-réponses et utilisent BLEU et ROUGE comme critères d'évaluation. Cependant, ce type d’évaluation est facilement affecté par le style de sortie du modèle de langage et ne convient pas aux scénarios qui mettent l’accent sur l’exactitude des faits scientifiques.

Sur cette base, l'équipe de recherche a élaboré un test de référence chimique ChemBench, similaire aux ensembles d'évaluation courants actuels MMLU et C-Eval. ChemBench comprend 9 tâches sur les molécules et réactions chimiques et est identique aux tâches de l'ensemble de données ChemData.De plus, ChemBench contient 4 100 questions à choix multiples, chacune avec une réponse correcte, qui visent à minimiser l'impact du style de sortie du modèle de langage sur les résultats de l'évaluation.

Il convient de mentionner que le benchmark a été lancé sur le projet open source OpenCompass. La figure suivante montre la répartition des 9 tâches du benchmark ChemBench.

Répartition de 9 tâches dans le test de référence ChemBench

Résultats de la recherche : l'expertise en chimie modèle ChemLLM est comparable à celle du GPT-4 et nettement meilleure que celle des LLM généraux de taille similaire

L'équipe de recherche a évalué les performances du grand modèle de langage chimique ChemLLM à partir de dimensions quantitatives et qualitatives.L'évaluation quantitative comprend l'évaluation des capacités chimiques et des capacités générales, tandis que l'évaluation qualitative est principalement évaluée par les performances dans les tâches de PNL (traitement du langage naturel) liées à la chimie.

Dans l'évaluation des capacités chimiques,ChemBench sert de référence pour évaluer les capacités de base en chimie, en testant l'expertise du modèle à travers 9 tâches différentes. Comme le montre la figure ci-dessous, ChemLLM surpasse considérablement les modèles de langage généraux de grande taille (LLM) de taille similaire et surpasse GPT-3.5 dans tous les domaines. Par rapport à InternLM2-Chat-7B, les capacités de ChemLLM en chimie ont été considérablement améliorées, ce qui indique que la deuxième phase de formation aux capacités en chimie a un effet significatif. Comparé à GPT-4, ChemLLM a obtenu un score supérieur à GPT-4 dans 6 tâches sur 9.

Score d'évaluation des performances chimiques ChemLLM

Dans l’évaluation des compétences générales,L'équipe de recherche a utilisé quatre ensembles de données : MMLU, C-Eval, GSM8K et C-MHChem pour évaluer ChemLLM. Parmi eux, le MMLU est un test de référence couvrant des matières interdisciplinaires telles que les STEM (sciences, technologie, ingénierie et mathématiques), les sciences humaines et sociales, et effectue une évaluation large des connaissances interdisciplinaires ; C-Eval est un test de référence chinois complet qui couvre plusieurs sujets et est divisé en 4 niveaux de difficulté ; GSM8K est un test de référence pour tester la capacité mathématique des modèles de langage, nécessitant la résolution de problèmes à travers 2 à 8 étapes d'opérations mathématiques de base ; C-MHChem est un ensemble de données permettant d'évaluer les concepts chimiques de base du modèle, impliquant principalement les tests de chimie du collège et du lycée.

Comme le montre la figure ci-dessous, ChemLLM atteint des précisions de 65,6 et 64,1 sur les benchmarks anglais MMLU et chinois C-Eval, respectivement, démontrant ses excellentes performances dans un plus large éventail de disciplines et de scénarios multilingues.

Dans le test de l'ensemble de données GSM8K, la précision de ChemLLM a atteint 67,2. Les résultats ont montré que le réglage fin des données chimiques améliorait dans une certaine mesure la capacité de raisonnement du modèle.

Dans le test de l'ensemble de données C-MHChem, ChemLLM a atteint une précision de 76,4, surpassant GPT-4, démontrant les capacités de ChemLLM dans les examens d'entrée au collège et au lycée chinois.

Score d'évaluation des performances générales du ChemLLM

Dans l’évaluation qualitative,L'équipe de recherche a évalué ChemLLM à travers des tâches de PNL (traitement du langage naturel) liées à la chimie telles que la création de poésie chimique, l'extraction de texte, la traduction de littérature chimique et les réponses éthiques. Les résultats montrent que ChemLLM est capable de fournir une compréhension plus approfondie et une application créative des connaissances chimiques dans diverses tâches de PNL. La figure suivante répertorie les performances de ChemLLM sur certaines tâches NLP :

ChemLLM Écriture de poésie chimique
ChemLLM Extraction d'informations chimiques

Les résultats de recherche ci-dessus montrent que ChemLLM est capable de gérer diverses tâches chimiques grâce à des conversations en temps réel. Ses capacités chimiques sont comparables à celles du GPT-4 et il fonctionne bien dans d’autres domaines.


Actuellement, ChemLLM a terminé une nouvelle série de mises à niveau. ChemLLM-1.5 est connecté à la fonction RAG, qui prend non seulement en charge l'exploration et la compréhension approfondies de la littérature chimique et la recherche en ligne, mais prend également en charge le dialogue direct avec ChemLLM pour discuter du contenu des articles. Le développement de ChemLLM crée un précédent pour les LLM dans les domaines scientifiques, accélérant encore les progrès de la recherche chimique à l'ère de l'IA.

HyperAI Hyper.ai a lancé le « Déploiement en un clic du grand modèle chimique ChemLLM-7B-chat ».Ce qui suit est un didacticiel étape par étape et un affichage des effets. Explorons-le avec l'éditeur~

Déploiement en un clic du grand modèle chimique ChemLLM-7B-chat

Essai de démonstration

  1. Connectez-vous à hyper.ai, sur la page « Tutoriel », sélectionnez « Déploiement en un clic du grand modèle chimique Pu Ke ChemLLM-7B-chat Demo », puis cliquez sur « Exécuter ce tutoriel en ligne ».

2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

3. Cliquez sur « Suivant : sélectionner le taux de hachage » dans le coin inférieur droit.

4. Une fois la page affichée, sélectionnez « NVIDIA GeForce RTX 4090 » et cliquez sur « Suivant : Réviser ». Les nouveaux utilisateurs peuvent s'inscrire en utilisant le lien d'invitation ci-dessous pour obtenir 4 heures de RTX 4090 + 5 heures de temps CPU gratuit !

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :
https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

5. Cliquez sur « Continuer » et attendez que les ressources soient allouées. Le premier processus de clonage prendra environ 2 minutes. Lorsque le statut passe à « En cours d'exécution », cliquez sur la flèche de saut à côté de « Adresse API » pour accéder à la page « Déploiement en un clic de la démonstration du grand modèle ChemLLM-7B-chat de Puke Chemical ». Veuillez noter que les utilisateurs doivent effectuer l'authentification par nom réel avant d'utiliser la fonction d'accès à l'adresse API.

Si le problème persiste pendant plus de 10 minutes et que le système est toujours dans l’état « Allocation des ressources », essayez d’arrêter et de redémarrer le conteneur. Si le redémarrage ne résout toujours pas le problème, veuillez contacter le service client de la plateforme sur le site officiel.

Aperçu de l'effet

Tester les dilemmes éthiques dans le développement de médicaments

Références :
1. https://mp.weixin.qq.com/s/C_aFYbzLlQySmTDarWWRkA
2. https://mp.weixin.qq.com/s/b9T9LxAkv4gnJMfBs2AW5Q