
自然言語処理やコンピュータビジョンでの成功に触発され、前学習は化学情報学や生物情報学、特に分子を基とするタスクにおいて大きな注目を集めています。分子は、原子が結合でつながったグラフ表現または特定のルールに基づいて分子グラフに対して深さ優先探索を適用したSMILESシーケンス(Simplified Molecular Input Line Entry System)によって表すことができます。既存の分子前学習に関する研究では、グラフ表現のみまたはSMILES表現のみが使用されてきました。本研究では、両方の表現を活用し、その強みを効果的に組み合わせる新しい前学習アルゴリズムである双方向分子前学習(Dual-View Molecule Pre-training, 略してDMP)を提案します。DMPのモデルは2つのブランチから構成されています:1つは分子のSMILESシーケンスを入力として受け取るTransformerブランチ、もう1つは分子グラフを入力として受け取るGNN(Graph Neural Network)ブランチです。DMPの訓練には3つのタスクが含まれます:(1) TransformerブランチによるSMILESシーケンス内のマスクされたトークンの予測、(2) GNNブランチによる分子グラフ内のマスクされた原子の予測、(3) TransformerとGNNブランチそれぞれが出力する高次元表現間の一貫性最大化です。前学習後、経験的な結果に基づき推奨されるTransformerブランチ、GNNブランチ、または両方を使用して下流タスクを行うことができます。DMPは9つの分子特性予測タスクでテストされ、そのうち7つのタスクで最先端の性能を達成しました。さらに、DMPは3つの逆合成解析タスクでもテストされ、これらでも最先端の結果を得ました。