HyperAIHyperAI
vor 2 Monaten

MolXPT: Moleküle mit Text umhüllen für generatives Vortraining

Zequn Liu; Wei Zhang; Yingce Xia; Lijun Wu; Shufang Xie; Tao Qin; Ming Zhang; Tie-Yan Liu
MolXPT: Moleküle mit Text umhüllen für generatives Vortraining
Abstract

Der generative vortrainierte Transformer (GPT) hat in der natürlichen Sprachverarbeitung und verwandten Techniken großen Erfolg gezeigt, wobei ähnliche Ansätze in die molekulare Modellierung integriert wurden. Angesichts der Tatsache, dass Text die wichtigste Aufzeichnung für wissenschaftliche Entdeckungen darstellt, schlagen wir in dieser Arbeit MolXPT vor, ein vereintes Sprachmodell von Text und Molekülen, das auf SMILES (einer sequenziellen Darstellung von Molekülen) vorbereitet ist, die durch Text umschlossen sind. Kurz gesagt, erkennen wir die Molekülbezeichnungen in jeder Sequenz und ersetzen sie durch die entsprechenden SMILES. Auf diese Weise können die SMILES Informationen aus dem umgebenden Text nutzen und umgekehrt. Die oben beschriebenen umschlossenen Sequenzen, Textsequenzen aus PubMed und SMILES-Sequenzen aus PubChem werden allesamt in ein Sprachmodell eingespeist, um das Vor-Training durchzuführen. Experimentelle Ergebnisse zeigen, dass MolXPT bei der Vorhersage molekularer Eigenschaften auf MoleculeNet starke Baseline-Modelle übertrifft, vergleichbar mit dem besten Modell bei der Text-Molekül-Übersetzung auftritt, dabei aber weniger als die Hälfte seiner Parameter verwendet, und zudem zero-shot molekulare Generierung ohne Feinabstimmung ermöglicht.

MolXPT: Moleküle mit Text umhüllen für generatives Vortraining | Neueste Forschungsarbeiten | HyperAI