Mol-Instructions Ensemble De Données D'instructions Biomoléculaires À Grande Échelle
Date
Taille
URL de publication
Tags
Catégories
*Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.
Mol-Instructions est un ensemble de données d'instructions biomoléculaires à grande échelle conçu pour les grands modèles de langage. Il a été créé par une équipe de recherche de l'Université du Zhejiang en 2024. Les résultats de l'article associé sont "Mol-Instructions : un ensemble de données d'instructions biomoléculaires à grande échelle pour les grands modèles de langage", a été accepté par l'ICLR 2024.
L'ensemble de données contient trois types d'instructions : des instructions orientées vers les molécules, des instructions orientées vers les protéines et des instructions textuelles sur les biomolécules. Son objectif est de fournir des données d’instructions riches pour améliorer la compréhension et les capacités de prédiction des grands modèles linguistiques dans le domaine des biomolécules.
Le Guide moléculaire contient 148 400 instructions couvrant les propriétés et les comportements de base des petites molécules, impliquant une variété de réactions chimiques et de tâches de conception moléculaire. Les instructions guidées par les protéines contiennent 505 000 instructions couvrant la structure, la fonction et la prédiction de l'activité des protéines, ainsi que la conception des protéines basée sur des instructions textuelles. Biomolecule Text Instructions contient 53 000 instructions, principalement destinées aux tâches de traitement du langage naturel dans les domaines de la bioinformatique et de la chimioinformatique.
