
摘要
t-SNE 与层次聚类是生物领域中广泛应用的探索性数据分析方法。基于近期在加速 t-SNE 计算及揭示更精细结构方面的进展,我们结合这两种方法,提出了一种名为 tree-SNE 的新型算法——一种基于多层一维 t-SNE 嵌入的层次聚类与可视化方法。此外,我们还引入了 alpha-聚类(alpha-clustering)方法,该方法无需预先指定聚类数量,即可根据多尺度下聚类结果的稳定性,自动推荐最优的聚类分配方案。我们在手写数字图像、血液细胞的质谱流式细胞术(CyTOF)数据以及视网膜细胞的单细胞 RNA 测序(scRNA-seq)数据上,验证了 tree-SNE 与 alpha-聚类的有效性。为进一步证明可视化结果的可靠性,我们利用 alpha-聚类在多个图像数据集上实现了与当前最先进无监督聚类方法相媲美的性能。相关软件已开源,获取地址为:https://github.com/isaacrob/treesne。