半监督学习 Semi-Supervised Learning

半监督学习是介于监督学习和无监督学习之间的学习技术。它同时利用有标记样本与无标记样本进行学习。

半监督学习是让让学习器不依赖外界交互,自动地利用未标记样本来提升学习性能。

常见的两种半监督学习假设

一类是 “聚类假设”(cluster assumption),即假设数据存在簇结构,同一个簇样本属于同一个类别。

另一类是 “流形假设”(manifold assumption),即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。

半监督学习理论简述:

半监督学习有两个样本集, 一个有标记, 一个没有标记. 分别记作

Lable = { ( xi , yi ) }, Unlabled = { ( xi ) }. 并且数量上, L << U.

1)单独使用有标记样本, 我们能够生成有监督分类算法;

2)单独使用无标记样本, 我们能够生成无监督聚类算法;

3)两者都使用, 我们希望在 1 中加入无标记样本, 增强有监督分类的效果; 同样的, 我们希望在 2 中加入有标记样本, 增强无监督聚类的效果.

一般而言, 半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类. 也就是在 1 中加入无标记样本, 增强分类效果.

半监督学习算法分类:

1)self-training 自训练算法;

2)generative models 生成模型;

3)SVMs 半监督支持向量机;

4)graph-basedmethods 图论方法;

5)multiview learing 多视角算法。

参考来源

【1】https://blog.csdn.net/ice110956/article/details/13775071

【2】http://blog.sciencenet.cn/blog-242887-309591.html

【3】https://www.zybuluo.com/Team/note/1133211