視覚変換器(Vision Transformer)は自己教師学習(self-supervised learning)の過程で高品質なパッチ埋め込み(patch embeddings)を学習し、オブジェクトの局所化、オブジェクト検出、スパースなセマンティックセグメンテーションといった多数の非教師あり下流タスクにおいて重要な役割を果たす。これらの下流タスクは、パッチ類似性グラフ(patch affinity graph)の多様な性質を活用することで、非教師あり設定において最先端の性能を達成している。しかし、パッチ類似性グラフの真の潜在能力は、密度の高いセマンティックセグメンテーションタスクにおいてまだ十分に活用されていない。既存の研究によれば、モジュール性(modularity)はグラフの重要な性質であり、既存のグラフ分割の強さを反映している。本研究では、パッチ埋め込み空間における特徴クラスタリングとノード属性空間におけるグラフモジュール性の共同最適化が、滑らかな学習収束を実現し、より優れた性能をもたらすと主張する。本論文では、自己教師学習によって得られた視覚変換器から抽出されたパッチ埋め込みの隠れた性質を活用し、密度の高いセマンティックセグメンテーションタスクに特化した、エンドツーエンドの非教師あり学習手法「GraPix」を提案する。GraPixは、パッチ埋め込み空間における類似度に基づいて類似性グラフを構築し、新しく提案する特徴クラスタリングとグラフモジュール性の共同最適化目的関数を用いて、密度の高いセマンティックセグメンテーションに適した高判別力の重心埋め込み(centroid embeddings)を学習する。実験の結果、GraPixはSUIMデータセットにおいて最先端の手法を上回り、Cityscapesデータセットでは2番目の性能を達成した。さらに、モデル構成要素およびハイパーパラメータの選定の妥当性を検証する詳細なアブレーションスタディも実施した。本研究のコードは、https://github.com/SonalKumar95/GraPix にて公開されている。