流形学习 Manifold learning

流形学习是模式识别中的基本方法,其基于观测到的现象中去寻找事物的本质,找到产生数据的内在规律。

流形学习分为线性流形学习算法和非线性流形学习算法两种,其中非线性流形学习算法包括等距映射 Isomap,拉普拉斯特征映射 Laplacian eigenmaps,局部线性嵌入 Locally-linear embedding,线性方法则包含主成分分析 Principal component analysis,多维尺度变换 Multidimensional scaling 。

等距映射

Isomap 目标是对于给定的高维流形,欲找到其对应的低维嵌入,使得高维流形上数据点间的近邻结构在低维嵌入中得以保持。 Isomap 计算高维流形上数据点间距离时,采用微分几何中的测地线距离。

优点:

  • 求解过程依赖于线性代数的特征值和特征向量问题,保证了结果的稳健性和全局最优性;
  • 能通过剩余方差判定隐含的低维嵌入的本质维数;
  • Isomap 方法计算过程中只需要确定唯一的一个参数(近邻参数 k 或邻域半径 e)。

拉普拉斯特征映射

拉普拉斯特征映射用一个无向有权图描述一个流形,然后通过用图的嵌入来找低维表示,其速度最快,但是效果相对来说不理想。

局部线性嵌入

局部线性嵌入是非线性降维的里程碑,其算法可以归结为三步:

  • 寻找每个样本点的 k 个近邻点;
  • 由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
  • 由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。

主成分分析

利用对原来的变量进行线性组合而得到新的变量,这些变量之间的方差最大,由于数据原变量之间有可能差距不大,描述的内容差不多,故效率低下。

多维尺度分析

多维尺度分析是把观察的数据用较少的维数来表达,但其利用的是成对样本间相似性构建合适的低维空间,使得样本与高维空间的相似性尽可能的保持一致。

多维尺度分析方法有 5 个关键的要素,分别为主体、客体、准则、准则权重、主体权重,具体如下:

  • 客体:被评估的对象。可以认为是待分类的几种类别。
  • 主体:评估客体的单位。就是训练数据。
  • 准则:根据研究目的自行定义,用以评估客体优劣的标准。
  • 准则权重:主体衡量准则重要性后,对每个准则分别赋予权重值。
  • 主体权重:研究者权衡准则重要性后,对主体赋予权重值。