随机森林是包含多个决策树的多功能算法,其利用有放回抽样构成的样本集训练决策树,决策树的每个节点在训练时只使用随机抽样的部分特征。
基于一个属性对新对象进行分类判别时,随机森林中的每棵树会先给出自己的分类选择,并对此「投票」,对于分类问题,森林的输出结果将会是票数最多的那个;对于回归问题,森林输出的结果将会是决策树输出的平均值。
随机森林算法中,「随机」是核心,「森林」只是一种组合方式,森林在构建每颗树的时候,为了保证各树之间的独立性,通常会采用两到三层的随机性。
随机森林特点
- 优点:极高的准确率、不容易过拟合、较好的抗噪声能力、可处理高维度的据,且无需特征选择、可处理离散型数据和连续型数据、数据集无需规范化、训练速度快,可得到变量重要性排序、容易实现并行化。
- 缺点:参数复杂、训练时需要较大的空间和时间、模型还有部分领域无法解释。
随机森林应用
- 执行回归和分类任务;
- 用于处理缺失值、异常值以及其他数据探索中的重要步骤;
- 用于将几个低效模型整合为一个高效模型。
父级词:Bagging 算法
子级词:决策树
参考来源
【1】https://blog.csdn.net/qq547276542/article/details/78304454
【2】https://blog.csdn.net/lishuandao/article/details/52555103
【3】https://en.wikipedia.org/wiki/Random_forest
【4】http://dataunion.org/23602.html