
摘要
变分自编码器(VAEs)在分子的SMILES字符串和图表示上定义,有望通过改进分子属性的优化来革新制药和材料行业。然而,这些VAEs受到SMILES字符串非唯一性和图卷积计算成本高的限制。为了高效地沿分子图的所有路径传递消息,我们使用一组堆叠的循环神经网络对单个分子的多个SMILES字符串进行编码,在不同的SMILES表示之间汇集每个原子的隐藏表示,并利用注意力池化构建最终的固定长度潜在表示。通过解码为该分子的一组不相交的SMILES字符串,我们的All SMILES VAE学习了在先验分布高概率质量子空间附近的几乎双射映射,从而实现了分子与潜在表示之间的近似一一对应关系。基于SMILES但以分子为中心的潜在表示在各种完全监督和半监督属性回归及分子属性优化任务中显著超越了现有技术水平。