要約
証拠蓄積モデルは、クラスタリングアンサンブル手法における基本パーティションの情報を収集するアプローチであり、元のデータ空間から共連関行列へのカーネル変換と見なすことができる。しかし、この変換過程において、クラスタ構造に関する情報が一部損失される可能性がある。そのため、文献に登場するいくつかの手法では、失われた情報を特定し、アンサンブルプロセスに再帰的に戻す試みがなされている。本論文では、共連関行列から一部の証拠を削除することで、より正確なクラスタリング結果が得られるという興味深い現象を提示する。この現象の直感的な説明は、元の共連関行列に含まれる一部の証拠がノイズを構成しており、最終的なクラスタリングに悪影響を及ぼす可能性があることにある。しかし、実際にはこれらのノイズ的証拠を検出することは困難であり、さらに行列から削除することも容易ではない。この問題を解決するために、出現頻度が低い多重レベルの証拠を削除する手法を提案する。なぜなら、負の影響を及ぼす証拠は通常、基本パーティションにおいて規則的に出現しないからである。その後、正規化カット(normalized cut)を用いて複数のクラスタリング結果を生成する。アンサンブル結果の最適解を識別するため、共連関行列のみを用いる内部妥当性指標を特別に設計した。16のデータセットに対する実験結果から、提案手法がいくつかの最先端のクラスタリングアンサンブル手法を上回ることを示した。