
\textbf{A}ccuracy, \textbf{R}obustness to noises and scales, \textbf{I}nterpretability, \textbf{S}peed, and \textbf{E}asy to use (ARISE) は、優れたクラスタリングアルゴリズムの重要な要件です。しかし、これらの目標を同時に達成することは困難であり、ほとんどの先進的な手法はそれらの一部にのみ焦点を当てています。これらの側面を総合的に考慮するため、我々は新しいクラスタリングアルゴリズムである GIT (\textbf{G}raph of \textbf{I}ntensity \textbf{T}opology を基にしたクラスタリング) を提案します。GIT は、局所的および全体的なデータ構造の両方を考慮します。まず、サンプルの強度ピークに基づいて局所クラスターを形成し、次にこれらの局所クラスター間の全体的なトポロジカルグラフ(トポグラフ)を推定します。予測クラス比率と事前クラス比率間のワッサーシタイン距離を使用して、トポグラフ内のノイジーなエッジを自動的に切断し、接続された局所クラスターを最終的なクラスターとして統合します。その後、GIT を7つの競合アルゴリズムと比較するために、5つの合成データセットと9つの実世界データセットを使用しました。高速な局所クラスター検出、堅牢なトポグラフ構築、および正確なエッジ切断により、GIT は魅力的な ARISE 性能を示し、他の非凸クラスタリング方法を大幅に上回っています。例えば、MNIST および FashionMNIST において GIT は F1 スコアで対応する手法よりも約10%優れています。コードは \color{red}{https://github.com/gaozhangyang/GIT} で利用可能です。