9 天前

SELFormer:基于SELFIES语言模型的分子表征学习

Atakan Yüksel, Erva Ulusoy, Atabey Ünlü, Tunca Doğan
SELFormer:基于SELFIES语言模型的分子表征学习
摘要

自动化计算分析庞大的化学空间对于药物发现、材料科学等多个研究领域至关重要。表示学习技术近年来被广泛应用于生成复杂数据的紧凑且信息丰富的数值表达。一种高效学习分子表示的方法是利用自然语言处理(NLP)算法处理基于字符串的化学表示形式。迄今为止,大多数方法均采用SMILES表示法作为输入;然而,SMILES存在诸多有效性与鲁棒性问题,可能阻碍模型充分挖掘数据中隐藏的知识。在本研究中,我们提出SELFormer——一种基于Transformer架构的化学语言模型,该模型采用100%有效、紧凑且表达能力强的表示法SELFIES作为输入,以学习灵活且高质量的分子表示。SELFormer在两百万个类药物化合物上进行预训练,并针对多种分子性质预测任务进行微调。性能评估结果表明,SELFormer在预测分子水溶性和不良药物反应方面,显著优于所有对比方法,包括基于图学习的方法以及基于SMILES的化学语言模型。我们还通过降维技术可视化了SELFormer所学习到的分子表示,结果表明,即使在预训练阶段,模型也已具备区分具有不同结构特性的分子的能力。我们已将SELFormer作为可编程工具发布,配套提供数据集及预训练模型。总体而言,本研究证实了在化学语言建模中使用SELFIES表示法的优势,并为设计与发现具有特定功能的新药物候选分子开辟了新的可能性。

SELFormer:基于SELFIES语言模型的分子表征学习 | 最新论文 | HyperAI超神经