17 天前

使用 t-SNE 可视化数据

{Geoffrey Hinton, Laurens van der Maaten}
使用 t-SNE 可视化数据
摘要

我们提出了一种名为“t-SNE”的新方法,用于将高维数据可视化为二维或三维空间中的点分布图。该方法是Hinton与Roweis(2002)提出的随机邻域嵌入(Stochastic Neighbor Embedding, SNE)的一种改进版本,其优化过程更为简便,并通过显著减弱数据点在地图中心区域聚集的倾向,实现了更优的可视化效果。t-SNE在生成单一可视化地图以揭示多尺度结构方面,优于现有的各类方法。这一点对于分布在多个相关但不同的低维流形上的高维数据尤为重要,例如从多个视角拍摄的多类别物体图像。针对大规模数据集的结构可视化,我们展示了如何利用邻域图上的随机游走机制,使全部数据的隐含结构能够影响子集数据的呈现方式。我们在多种不同类型的数据集上验证了t-SNE的性能,并将其与多种非参数化可视化方法(包括Sammon映射、Isomap和局部线性嵌入)进行了比较。实验结果表明,t-SNE在几乎所有数据集上生成的可视化效果均显著优于其他方法。