过拟合 Overfitting
过拟合 是机器学习中的一种现象。指把样本中一些并不需要拿来作为分类的属性学习了的情况,此时学习的决策树模型并不是最优的模型,而且会会导致泛化性能下降。
过拟合造成的影响
在统计学和机器学习中,过拟合一般在描述统计学模型随机误差或噪音时用到。它通常发生在模型过于复杂的情况下,如参数过多等。过拟合会使得模型的预测性能变弱,并且增加数据的波动性。
避免过拟合可采取的措施
导致过拟合的因素有很多种,通常是由于学习能力过于强大。所以如果一味追求提高对训练数据的预测能力,所选择模型的复杂度往往比真模型更高,就会出现过拟合。
为了避免过拟合,有必要使用一些额外的技术,如交叉验证、正则化、 early stopping 、贝斯信息量准则、赤池信息量准则或 model comparison ,以指出何时会有更多训练而没有导致更好的一般化。
解决过拟合的方法
1)重新清洗数据,此方法适用于数据不纯的情况;
2)降低训练样本数量;
3)降低模型复杂程度;
4)增大正则项系数;
5)采用 Dropout 方法;
6)early stoping;
7)减少迭代次数;
8)增大学习率;
9)添加噪声数据;
10)在树结构中进行剪枝。