2 个月前

最先进的增强型NLP Transformer模型用于直接和单步逆合成分析

Igor V. Tetko; Pavel Karpov; Ruud Van Deursen; Guillaume Godin
最先进的增强型NLP Transformer模型用于直接和单步逆合成分析
摘要

我们研究了不同训练场景对使用化学反应的文本表示(SMILES)和自然语言处理神经网络Transformer架构预测化学化合物(逆)合成的影响。研究表明,数据增强作为一种在图像处理中广泛使用的方法,消除了神经网络的数据记忆效应,并提高了其预测新序列的性能。当同时对输入数据和目标数据进行增强时,这种效果尤为明显。对于USPTO-50k测试数据集,模型在预测最大片段(从而识别经典逆合成中的主要转化)方面的前五名准确率为84.8%,这是通过结合SMILES增强和束搜索算法实现的。同样的方法在单步USPTO-MIT测试集的直接反应预测中也提供了显著更好的结果。我们的模型在其具有挑战性的混合集中达到了90.6%的前一名准确率和96.1%的前五名准确率,在USPTO-MIT分离集中则达到了97%的前五名准确率。此外,该模型还显著提高了USPTO全集单步逆合成的前一名和前十名准确率。生成最频繁的SMILES出现频率与预测结果有很好的相关性,可以作为反应预测质量的一个衡量指标。

最先进的增强型NLP Transformer模型用于直接和单步逆合成分析 | 最新论文 | HyperAI超神经