层次聚类 Hierarchical clustering

层次聚类是一类算法的总成,即通过从下往上不断合并或者从上往下不断分裂以形成嵌套的簇,这种层次的类通过「树状图」来表示,而 Agglomerative Clustering 算法便是其中之一。

层次聚类试图在不同的「层次」上对样本数据进行划分,并一层一层地进行聚类,在聚类树中,不同类别的原始数据点是树的最底层,一个聚类的根节点便是树的最顶层。

层次聚类的分类

聚类树的创建目前有自下而上合并和自上而下分裂两种方法。

层次聚类的合并算法主要是计算两类数据集点间的相似性,并对所有数据点中最为相似的两个进行组合,并以此反复迭代。简单来说,该算法就是通过计算数据点之间的距离以判定相似性,距离越小相似度越高,并将距离最近的两个数据点或类别进行组合,生成聚类树。