9日前

ChemRL-GEM:特性予測のための幾何学的強化分子表現学習

Xiaomin Fang, Lihang Liu, Jieqiong Lei, Donglong He, Shanzhuo Zhang, Jingbo Zhou, Fan Wang, Hua Wu, Haifeng Wang
ChemRL-GEM:特性予測のための幾何学的強化分子表現学習
要約

分子特性予測は、医薬品および材料産業における基盤的なタスクであり、効果的な分子表現学習はその促進に極めて重要である。近年、グラフニューラルネットワーク(GNN)の進展により、分子表現学習へのGNNの応用が大きな可能性を示している。さらに、いくつかの最近の研究では、ラベル付き分子データの不足という課題を克服するため、自己教師学習(self-supervised learning)手法を用いたGNNの事前学習が成功裏に実施されている。しかし、従来のGNNおよび事前学習戦略は、分子をトポロジカルなグラフデータとして扱うにとどまり、分子の幾何構造情報(3次元空間構造)を十分に活用していない。一方で、分子の三次元空間構造(いわゆる分子幾何学構造)は、分子の物理的・化学的・生物学的性質を決定する上で最も重要な要因の一つである。この問題に応じて、本研究では化学表現学習(ChemRL)を目的とした新しい幾何学的強化型分子表現学習手法「GEM(Geometry Enhanced Molecular representation learning)」を提案する。まず、分子内の原子、結合、および結合角を同時にモデル化できる幾何学に基づくGNNアーキテクチャを設計した。具体的には、分子に対して二重のグラフ構造を構築する:第一のグラフは原子間の結合関係を表現し、第二のグラフは結合角の関係を表現する。さらに、この独自のGNNアーキテクチャの上に、分子の局所的およびグローバルな3次元構造を活用して空間的知識を学習するための複数の新規な幾何学レベルの自己教師学習戦略を提案した。我々は、さまざまな分子ベンチマークにおいて、ChemRL-GEMを多数の最先端(SOTA)ベースラインと比較した結果、回帰および分類の両タスクにおいて、すべてのベースラインを顕著に上回ることを示した。例えば、回帰タスクにおいて、SOTAベースラインと比較して平均で8.8%の性能向上が確認され、提案手法の優位性が実証された。