个体学习器 Individual learner

个体学习器是一个相对概念,它是集成学习中集成之前的学习器。

根据个体学习器的生成方式,集成学习的方法可分为以下两类:

  • 存在强依赖关系,必须串行生成的序列化方法,代表是 Boosting;
  • 不存在强依赖关系,可同时生成的并行化方法,代表是 Bagging 和「随机森林」Random Forest 。

Boosting 是可将弱学习器提升为强学习器的算法,其先从初始训练集训练出一个基学习器,再根据基学习器对训练样本分布进行调整,使得基学习器做错的训练样本在后续收到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直到基学习器数目达到事先指定的值 T,最终将这 T 个学习器进行加权结合。

Bagging 是并行式集成学习方法的代表,其基于自助采样法且主要关注降低方差;随机森林算法是 Bagging 的扩展变体,其在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入随机属性选择。

参考来源

【1】《机器学习》笔记-集成学习 (知乎文章)