11日前

GraphGPT：生成型事前学習グラフオイラー変換器

Qifang Zhao, Weidong Ren, Tianyu Li, Hong Liu, Xingsheng He, Xiaoxiao Xu

要約

本稿では、Graph Eulerian Transformer（GET）を基盤とする、新たな自己教師付き生成型事前学習モデル「GraphGPT」を紹介する。まず、標準的なTransformerエンコーダまたはデコーダアーキテクチャと、革新的なグラフからシーケンスへの変換手法を組み合わせたGETを提案する。この手法は、オイラー路（Eulerian path）を用いて、グラフまたはサンプリングされた部分グラフを、ノード、エッジ、属性を表すトークンのシーケンスに一意かつ可逆的に変換する。GETは、次のトークン予測（Next-Token Prediction, NTP）またはスケジュール付きマスクトークン予測（Scheduled Masked-Token Prediction, SMTP）のいずれかの自己教師付きタスクを用いて事前学習を行う。その後、この事前学習モデルは、グラフレベル、エッジレベル、ノードレベルの予測といった下流タスクに対して微調整される。シンプルな構造でありながら、GraphGPTは複数の大規模なOpen Graph Benchmark（OGB）データセットにおいて、最先端の手法と同等あるいはそれ以上の性能を達成している。特に、分子性質予測データセットPCQM4Mv2およびタンパク質間相互作用データセットogbl-ppaにおいて、顕著な優れた結果を示している。注目すべきは、生成型事前学習により、GraphGPTが20億パラメータ規模までスケーラブルでありながらも、性能の向上を維持できることである。これは、従来のグラフニューラルネットワーク（GNN）や先行するグラフTransformer（GT）に見られるスケーラビリティの制限を克服する画期的な成果である。グラフ基盤モデルの研究を推進し、化学、材料科学および関連分野における科学的発見を促進する目的から、本研究ではソースコード（https://github.com/alibaba/graph-gpt）および事前学習済みチェックポイントを公開する。