2ヶ月前

最先端の拡張NLPトランスフォーマーモデルを用いた直接的かつ一歩のレトロ合成

Igor V. Tetko; Pavel Karpov; Ruud Van Deursen; Guillaume Godin
最先端の拡張NLPトランスフォーマーモデルを用いた直接的かつ一歩のレトロ合成
要約

私たちは、化学反応のテキスト形式表現(SMILES)と自然言語処理のニューラルネットワークTransformerアーキテクチャを使用して、異なるトレーニングシナリオが化学化合物の(逆)合成予測に及ぼす影響を調査しました。結果として、画像処理で強力な手法として使用されるデータ拡張が、ニューラルネットワークによるデータ記憶の効果を排除し、新しいシーケンスの予測性能を向上させることを示しました。この効果は、入力データとターゲットデータに対して同時に拡張が行われた場合に観察されました。USPTO-50kテストデータセットにおいて最大フラグメント(従来の逆合成における主要変換の特定)の予測におけるトップ5精度は84.8%となり、これはSMILES拡張とビームサーチアルゴリズムの組み合わせによって達成されました。同様のアプローチは、単一ステップのUSPTO-MITテストセットからの直接反応予測でも著しく良い結果をもたらしました。私たちのモデルは、難易度が高い混合セットでトップ1精度90.6%、トップ5精度96.1%を達成し、分離されたUSPTO-MITセットではトップ5精度97%を達成しました。また、USPTOフルセットでの単一ステップ逆合成予測においても、トップ1およびトップ10精度が大幅に向上しました。最も頻繁に生成されるSMILESの出現頻度は予測結果と良好な相関関係があり、反応予測の品質指標として使用することができます。

最先端の拡張NLPトランスフォーマーモデルを用いた直接的かつ一歩のレトロ合成 | 最新論文 | HyperAI超神経