
分子表現学習(Molecular Representation Learning, MRL)は、ドラッグ設計などの応用において限られた教師ありデータから学習する上で重要な役割を果たすため、近年、大きな注目を集めている。多くのMRL手法では、分子を1次元の順序トークンまたは2次元のトポロジー構造グラフとして扱うが、これにより3次元情報の統合が制限され、特に3次元幾何構造の予測や生成が極めて困難となる。本研究では、MRL手法の表現能力および応用範囲を大幅に拡張する汎用的MRLフレームワーク「Uni-Mol」を提案する。Uni-Molは、同一のSE(3)不変変換器(SE(3)-equivariant transformer)アーキテクチャを持つ2つのモデルから構成される:1つは2億900万個の分子コンフォメーションを用いて事前学習された分子事前学習モデル、もう1つは300万個の候補タンパク質ポケットデータを用いて事前学習されたポケット事前学習モデルである。これらのモデルは、それぞれ独立して異なるタスクに適用可能であり、タンパク質-リガンド結合タスクでは両者を統合して使用する。適切に3次元情報を組み込むことで、Uni-Molは15の分子性質予測タスクのうち14で最先端(SOTA)を上回る性能を達成した。さらに、タンパク質-リガンド結合姿勢予測や分子コンフォメーション生成などの3次元空間タスクにおいても優れた性能を示した。最後に、少量のデータ(few-shot)で実行可能なタスク、たとえばポケットのドラッグアビリティ予測にも、Uni-Molが成功裏に適用可能であることを示した。本研究で開発したモデルおよびデータは、https://github.com/dptech-corp/Uni-Mol にて公開される予定である。