GraphGPT:生成型事前学習グラフオイラー変換器

本稿では、Graph Eulerian Transformer(GET)を基盤とする、新たな自己教師付き生成型事前学習モデル「GraphGPT」を紹介する。まず、標準的なTransformerエンコーダまたはデコーダアーキテクチャと、革新的なグラフからシーケンスへの変換手法を組み合わせたGETを提案する。この手法は、オイラー路(Eulerian path)を用いて、グラフまたはサンプリングされた部分グラフを、ノード、エッジ、属性を表すトークンのシーケンスに一意かつ可逆的に変換する。GETは、次のトークン予測(Next-Token Prediction, NTP)またはスケジュール付きマスクトークン予測(Scheduled Masked-Token Prediction, SMTP)のいずれかの自己教師付きタスクを用いて事前学習を行う。その後、この事前学習モデルは、グラフレベル、エッジレベル、ノードレベルの予測といった下流タスクに対して微調整される。シンプルな構造でありながら、GraphGPTは複数の大規模なOpen Graph Benchmark(OGB)データセットにおいて、最先端の手法と同等あるいはそれ以上の性能を達成している。特に、分子性質予測データセットPCQM4Mv2およびタンパク質間相互作用データセットogbl-ppaにおいて、顕著な優れた結果を示している。注目すべきは、生成型事前学習により、GraphGPTが20億パラメータ規模までスケーラブルでありながらも、性能の向上を維持できることである。これは、従来のグラフニューラルネットワーク(GNN)や先行するグラフTransformer(GT)に見られるスケーラビリティの制限を克服する画期的な成果である。グラフ基盤モデルの研究を推進し、化学、材料科学および関連分野における科学的発見を促進する目的から、本研究ではソースコード(https://github.com/alibaba/graph-gpt)および事前学習済みチェックポイントを公開する。