9日前

分子上で事前学習するための部分グラフ条件付きグラフ情報ボトルネックによるグラフニューラルネットワークの学習

{Van Thuy Hoang; O-Joun Lee}
分子上で事前学習するための部分グラフ条件付きグラフ情報ボトルネックによるグラフニューラルネットワークの学習
要約

本研究の目的は、人間によるラベル付けや事前の知識を一切用いずに、分子に対して事前学習済みのグラフニューラルネットワーク(GNN)モデルを構築することである。これまで、ラベル付き分子の取得における制約を克服するための多数の試みが提案されてきたが、従来の事前学習手法は依然として意味的な部分構造、すなわち機能基団(functional groups)に依存している。機能基団にのみ注目すると、グラフレベルでの差異を無視する可能性がある。分子に対する事前学習GNNを構築する際の鍵となる課題は、(1)明確に区別可能なグラフレベルの表現を生成すること、および(2)事前の知識なしに機能基団を自動的に発見することである。この課題を解決するために、本研究では、核心部分構造(グラフコア)および重要部分構造を認識するための新たな事前学習フレームワークとして、部分構造条件付きグラフ情報ボトルネック(Subgraph-conditioned Graph Information Bottleneck, S-CGIB)を提案する。その基本的なアイデアは、グラフコアが圧縮されながらも十分な情報を含んでおり、S-CGIBの原理に基づき、異なる分子間で重要部分構造を条件として入力グラフを再構成し、明確に区別可能なグラフレベルの表現を生成できることにある。機能基団に関する事前の知識なしに重要部分構造を発見するため、本研究では、エゴネット(ego networks)として機能基団の候補集合を生成し、グラフコアとこれらの候補との間でアテンションベースの相互作用を導入する手法を提案する。自教師学習から得られた本研究の学習済み部分構造は、現実世界の機能基団と高い一致を示す。複数の分野にまたがる分子データセットにおける広範な実験により、S-CGIBの優位性が実証された。