MolXPT : Envelopper les molécules avec du texte pour l'entraînement pré-génératif

Le Generative Pre-trained Transformer (GPT) a démontré son grand succès dans le traitement automatique des langues, et les techniques connexes ont été adaptées à la modélisation moléculaire. Étant donné que le texte est l'enregistrement le plus important pour la découverte scientifique, dans cet article, nous proposons MolXPT, un modèle de langage unifié pré-entraîné sur les représentations textuelles et moléculaires (SMILES, une représentation séquentielle des molécules) intégrées au texte. En bref, nous détectons les noms des molécules dans chaque séquence et les remplaçons par leurs SMILES correspondants. De cette manière, les SMILES peuvent tirer profit des informations du texte environnant, et inversement. Les séquences enveloppées mentionnées ci-dessus, ainsi que les séquences textuelles provenant de PubMed et les séquences SMILES provenant de PubChem, sont toutes alimentées dans un modèle de langage pour l'entraînement préliminaire. Les résultats expérimentaux montrent que MolXPT surpassent des baselines solides pour la prédiction des propriétés moléculaires sur MoleculeNet, se comparent favorablement au meilleur modèle pour la traduction texte-molécule tout en utilisant moins de la moitié de ses paramètres, et permettent la génération moléculaire zéro-shot sans entraînement fin.