
最新の部分空間クラスタリング手法の多くは、まずデータポイント間の類似度行列(アフィニティ行列)を構築し、その後その行列に対してスペクトルクラスタリングを適用する二段階プロセスに従っている。これらの手法に関する多くの研究は、アフィニティ行列を生成する第一段階に注目しており、線形部分空間の自己表現性(self-expressive property)を活用するが、最終的なクラスタリング結果を導くスペクトルクラスタリング段階についてはほとんど検討されていない。さらに、既存の手法では、自己表現型クラスタリング定式化によって得られたアフィニティに対して、任意の後処理手順(ad-hocな処理)を適用して最終的なアフィニティを生成する場合が多く、これが全体のクラスタリング性能に大きな影響を与えることがある。本研究では、この二段階を統合するアプローチを提案する。具体的には、データの自己表現表現と、スペクトルクラスタリングに適した良好な正規化が行われたアフィニティ行列の両方を同時に学習する。提案モデルでは、アフィニティ行列が二重確率行列(doubly stochastic)であることを制約条件として導入することで、スペクトルクラスタリングにおけるアフィニティ行列の正規化を原理的かつ一貫性のある方法で実現するとともに、二重確率正規化がスペクトルクラスタリングにおいて既に知られている利点を活用する。本研究では、一般化されたフレームワークを構築し、二つのモデルを導出する。一つは自己表現表現と二重確率アフィニティを同時に学習する連合学習モデルであり、もう一つは順次的に一方を最適化した後、他方を解く逐次解法モデルである。さらに、問題のスパース性を活用して、逐次解法用の高速なアクティブセット法(active-set method)を構築し、大規模データセットにおける効率的な計算を実現した。実験結果から、本手法はコンピュータビジョン分野で一般的に用いられる多くのデータセットにおいて、最先端の部分空間クラスタリング性能を達成することが示された。