
要約
分子のSMILES文字列表現とグラフベース表現を用いた変分オートエンコーダ(VAE)は、分子特性の最適化を改善し、製薬業界や材料業界に革命をもたらす可能性を持っています。しかし、これらのVAEは、SMILES文字列の非一意性とグラフ畳み込みの計算コストによって制約されています。分子グラフ内のすべてのパスに効率的にメッセージを伝達するために、単一の分子の複数のSMILES文字列を積み重ねた再帰型ニューラルネットワーク(RNN)のセットでエンコードし、各原子の隠れ表現をSMILES表現間でプーリングし、注意プーリングを使用して最終的な固定長潜在表現を作成します。その後、分子の非連結なSMILES文字列セットにデコードすることで、当社のAll SMILES VAEは、事前分布の高確率質量部分空間近くにある分子と潜在表現とのほぼ双射的なマッピングを学習します。当社が開発した分子に基づく潜在表現は、完全教師ありおよび半教師ありの特性回帰タスクや分子特性最適化タスクにおいて、現行最先端技術を大幅に上回っています。