
要約
合成計画と反応結果予測は、コンピュータ支援有機化学における二つの基本的な問題であり、これらに対して様々なデータ駆動型アプローチが登場しています。各問題をSMILES-to-SMILES翻訳としてモデル化する自然言語処理手法は、シンプルなエンドツーエンドの形式を提供し、データ前処理の必要性を軽減し、最適化された機械翻訳モデルのアーキテクチャを使用可能にします。しかし、SMILES表現は分子構造に関する情報を効率的に捉える表現ではないことが示されており、これがSMILES拡張によって経験的な性能向上が達成されている理由です。本稿では、テキスト生成用のTransformerモデルの力と、入力データ拡張の必要性を軽減する分子グラフエンコーダーの置換不変性を組み合わせた新しいGraph2SMILESモデルについて説明します。エンドツーエンドのアーキテクチャとして、Graph2SMILESは任意の分子間変換タスクにおいてTransformerの代わりに使用できます。当社のエンコーダーでは、注意機構付き有向メッセージ伝播ニューラルネットワーク(D-MPNN)が局所的な化学環境を捉え、グローバルな注意エンコーダーが長距離および分子間相互作用を可能にし、グラフ認識位置埋め込みによって強化されています。Graph2SMILESはUSPTO_480kおよびUSPTO_STEREOデータセットでの反応結果予測においてTransformerベースラインのトップ1精度をそれぞれ1.7%および1.9%向上させ、USPTO_50kデータセットでの一歩遡及合成において9.8%向上させています。