T – 分布随机近邻嵌入 T-Distribution Stochastic Neighbour Embedding

T – 分布随机近邻嵌入是一种用于降维的机器学习方法,可被用于识别关联模式,其主要优势是保持局部结构。这意味着高维数据空间中,距离相近的点投影至低维中仍然相近。

T-SNE 特点

低维空间下,使用更重长尾分布的 t 分布可避免 Crowding 问题和优化问题。

T-SNE 梯度优势

  • 对于不相似的点,用较小的距离产生较大的梯度来让点之间产生排斥;
  • 这种排斥不会无限大 ,以避免不相似的点距离太远。

T-SNE 不足

  • T-SNE 主要用于可视化,因此在其他方面表现不佳,如测试集合降维中,由于没有显式的预估部分,故不能在测试集合直接降维;
  • T-SNE 倾向于保存局部特征,对于本征维数较高的数据集,不可能完整的映射到 2-3 维空间;
  • T-SNE 没有唯一最优解及预估部分,要做预估需考虑降维之后,再构建一个回归方程之类的模型;
  • 训练太慢,较多基于树的算法在 T-SNE 上做改进。
相关词:T -分布