2 个月前
MolXPT:用文本包裹分子以进行生成式预训练
Zequn Liu; Wei Zhang; Yingce Xia; Lijun Wu; Shufang Xie; Tao Qin; Ming Zhang; Tie-Yan Liu

摘要
生成预训练变换器(Generative Pre-trained Transformer, GPT)在自然语言处理领域取得了巨大成功,相关技术已被应用于分子建模。鉴于文本是科学发现最重要的记录形式之一,本文提出了一种统一的文本和分子语言模型——MolXPT,该模型基于包含文本的SMILES(分子序列表示法)进行预训练。具体而言,我们在每个序列中检测出分子名称,并将其替换为相应的SMILES表示。通过这种方式,SMILES可以从周围的文本中获取信息,反之亦然。上述包裹后的序列、来自PubMed的文本序列以及来自PubChem的SMILES序列均被输入到一个语言模型中进行预训练。实验结果表明,MolXPT在MoleculeNet上的分子性质预测任务中优于强大的基线模型,在使用不到其一半参数的情况下,其在文本-分子翻译任务中的表现与最佳模型相当,并且能够在无需微调的情况下实现零样本分子生成。