
多くの実世界の問題では、画像、動画、テキスト、ウェブドキュメント、DNAマイクロアレイデータなど、高次元データの集合を扱っています。これらのデータはしばしば、データが属するいくつかのクラスやカテゴリに対応する低次元構造に近い位置に存在します。本論文では、低次元部分空間の連合に存在するデータ点をクラスタリングするためのアルゴリズムであるSparse Subspace Clustering(SSC)を提案し、研究しています。この手法の基本的な考え方は、あるデータ点を他の点で表現する際の無数の可能性の中で、疎な表現は同じ部分空間から少数の点を選択することに対応することです。これにより、疎最適化プログラムを解き、その解をスペクトラルクラスタリングフレームワークに用いてデータが部分空間にどのようにクラスタリングされるかを推定することが動機付けられます。しかし、一般的には疎最適化プログラムを解くことはNP困難であるため、凸緩和を考えます。そして、部分空間の配置とデータ分布に関する適切な条件のもとで、提案された最小化プログラムが所望の疎表現を回復することに成功すると示しています。提案されたアルゴリズムは効率的に解くことができ、部分空間の交差点近くにあるデータ点も処理できます。また、現状の最先端技術と比較して提案されたアルゴリズムの重要な利点は、ノイズや疎な外れ値エントリー(sparse outlying entries)、欠損エントリーなどのデータ上の煩雑さ(nuisances)を直接対処できることです。これはデータモデルを疎最適化プログラムに組み込むことで達成されます。私たちは合成データだけでなく、運動セグメンテーションと顔クラスタリングという2つの実世界問題における実験を通じて、提案されたアルゴリズムの有効性を示しています。