过拟合 Overfitting

过拟合 是机器学习中的一种现象。指把样本中一些并不需要拿来作为分类的属性学习了的情况,此时学习的决策树模型并不是最优的模型,而且会会导致泛化性能下降。

过拟合造成的影响

在统计学和机器学习中,过拟合一般在描述统计学模型随机误差或噪音时用到。它通常发生在模型过于复杂的情况下,如参数过多等。过拟合会使得模型的预测性能变弱,并且增加数据的波动性。

避免过拟合可采取的措施

导致过拟合的因素有很多种,通常是由于学习能力过于强大。所以如果一味追求提高对训练数据的预测能力,所选择模型的复杂度往往比真模型更高,就会出现过拟合。

为了避免过拟合,有必要使用一些额外的技术,如交叉验证、正则化、 early stopping 、贝斯信息量准则、赤池信息量准则或 model comparison ,以指出何时会有更多训练而没有导致更好的一般化。

解决过拟合的方法

1)重新清洗数据,此方法适用于数据不纯的情况;

2)降低训练样本数量;

3)降低模型复杂程度;

4)增大正则项系数;

5)采用 Dropout 方法;

6)early stoping;

7)减少迭代次数;

8)增大学习率;

9)添加噪声数据;

10)在树结构中进行剪枝。

相关词:欠拟合