HyperAIHyperAI

Command Palette

Search for a command to run...

MolXPT : Envelopper les molécules avec du texte pour l'entraînement pré-génératif

Zequn Liu Wei Zhang Yingce Xia Lijun Wu Shufang Xie Tao Qin Ming Zhang Tie-Yan Liu

Résumé

Le Generative Pre-trained Transformer (GPT) a démontré son grand succès dans le traitement automatique des langues, et les techniques connexes ont été adaptées à la modélisation moléculaire. Étant donné que le texte est l'enregistrement le plus important pour la découverte scientifique, dans cet article, nous proposons MolXPT, un modèle de langage unifié pré-entraîné sur les représentations textuelles et moléculaires (SMILES, une représentation séquentielle des molécules) intégrées au texte. En bref, nous détectons les noms des molécules dans chaque séquence et les remplaçons par leurs SMILES correspondants. De cette manière, les SMILES peuvent tirer profit des informations du texte environnant, et inversement. Les séquences enveloppées mentionnées ci-dessus, ainsi que les séquences textuelles provenant de PubMed et les séquences SMILES provenant de PubChem, sont toutes alimentées dans un modèle de langage pour l'entraînement préliminaire. Les résultats expérimentaux montrent que MolXPT surpassent des baselines solides pour la prédiction des propriétés moléculaires sur MoleculeNet, se comparent favorablement au meilleur modèle pour la traduction texte-molécule tout en utilisant moins de la moitié de ses paramètres, et permettent la génération moléculaire zéro-shot sans entraînement fin.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp