
ネットワーク内におけるコミュニティやグループの同定には、グラフクラスタリングが不可欠である。近年、この目的に適したツールの開発に向けてさまざまな試みがなされてきた。特に最近では、深層学習、特にグラフニューラルネットワーク(GNN)の最新の進展を基盤としたアプローチが主流となっている。しかし、いくつかの手法がグラフの内在的なトポロジカル構造を全体にわたって考慮している一方で、先進的なクラスタリング手法の多くは、最終的なクラスタ割り当て段階においてこの構造を無視しており、その結果、最適な結果が得られないという問題がある。本論文では、ノード特徴量とグラフ構造の両方を活用する「GSCAN(Graph Stability Clustering for Applications with Noise)」を提案する。本手法は、クラスタの安定性を最大化する原理に基づく「質量超過法(Excess-of-Mass, EoM)」という著名なアプローチを基盤としている。EoMは、外れ値に対して高い耐性を持ち、事前にクラスタ数を指定する必要がないという、望ましい性質を備えている。本研究では、EoMをグラフの内在的構造に適応させるための拡張を提案し、EoMの欠点である「データポイントを過剰に外れ値と判定する傾向」に対処するための2つの後処理手法も提案する。これらの後処理はグラフのトポロジーを活用しており、エンド・ツー・エンドで学習された最先端のクラスタリング手法と比較しても優れた性能を発揮する。また、提案手法が高速かつスケーラブルな実装が可能であることも示す。本研究の主張は、3つの代表的なベンチマークデータセットを用いて検証された。実装コードは以下のURLから公開されている:https://github.com/GraphEoM/GSCAN