
要約
クラスタリングは、データセットを分割し、同じグループに配置された観測値が類似しているが、他のグループの観測値とは異なるようにする手法です。階層的クラスタリングとK平均法($K$-means clustering)は、それぞれ異なる長所と短所を持つ2つのアプローチです。例えば、階層的クラスタリングは木構造のようなグループを特定しますが、大規模なデータセットでは計算複雑性の問題があります。一方、K平均法は効率的ですが、均一な球形のクラスターを特定するための設計となっています。本稿では、これらの方法を組み合わせたハイブリッド非パラメトリッククラスタリング手法を提案します。この手法は一般的な形状のクラスターを識別でき、大規模なデータセットにも適用可能です。具体的には、まずK平均法を使用してデータセットを球形のグループに分割します。次に、階層的手法を使用してこれらのグループをマージし、データ駆動型距離尺度を停止基準として用います。当手法はデータセット内の一般的な形状や構造を持つグループを明らかにする可能性を持っています。シミュレーションデータおよび実際のデータセットにおける良好な性能を示しています。