9日前

大規模分子データ上の自己教師付きグラフトランスフォーマー

Yu Rong, Yatao Bian, Tingyang Xu, Weiyang Xie, Ying Wei, Wenbing Huang, Junzhou Huang
大規模分子データ上の自己教師付きグラフトランスフォーマー
要約

分子の情報豊かな表現を獲得することは、AI駆動型のドラッグ設計および発見において不可欠な前提条件である。近年の研究では、分子をグラフとして抽象化し、グラフニューラルネットワーク(GNN)を用いて分子表現学習を行うアプローチが主流となっている。しかし、実用的な場面におけるGNNの活用を阻む二つの問題が存在する:(1)教師付き学習に必要なラベル付き分子データの不足、(2)新規合成された分子に対する汎化能力の低さ。これらの課題を同時に解決するために、本研究では「GROVER」(Graph Representation frOm self-superVised mEssage passing tRansformer)と呼ばれる新しいフレームワークを提案する。GROVERは、ノードレベル、エッジレベル、グラフレベルにおいて丁寧に設計された自己教師学習タスクを導入することで、膨大なラベルなし分子データから分子の構造的・意味的情報を豊かに学習可能となる。さらに、こうした複雑な情報を効果的に符号化するため、メッセージパッシングネットワークをTransformer型アーキテクチャと統合し、より表現力の高い分子エンコーダーを実現している。GROVERの柔軟性により、監視信号を一切必要とせずに大規模な分子データセット上で効率的に学習が可能であり、上記の二つの課題に対して耐性を持つ。本研究では、1000万個のラベルなし分子データを用いて1億パラメータ規模のGROVERを事前学習した。これは、分子表現学習分野における最大規模のGNNおよび最大規模の学習データセットである。その後、事前学習済みのGROVERを用いて分子性質予測を実施し、タスク固有のファインチューニングを行うことで、11の困難なベンチマークにおいて、既存の最先端手法と比較して平均で6%以上も性能向上を達成した。得られた知見として、適切に設計された自己教師学習損失関数と高表現力を持つ事前学習モデルは、性能向上において極めて大きな潜在能力を有していることが示された。

大規模分子データ上の自己教師付きグラフトランスフォーマー | 最新論文 | HyperAI超神経