预剪枝是剪枝算法的一类,主要指决策树生成前进行的剪枝操作,与之对应的是后剪枝,旨在决策树生成后进行的剪枝操作。
决策树的生长过程中,对每个结点分支前做预先估计,若该节点的划分不能带来决策树泛化性能的提升,那么就停止划分并将此结点标记为叶节点。
预剪枝常用策略
- 定义一个高度,当决策树达到该高度时就停止生长;
- 决策树达到某个节点的实例时,这些实例具有相同的特征向量,即使它们不属于同一类也可以停止决策树的生长,这种方法对于处理数据的冲突问题比较有效;
- 定义一个阈值,当决策树达到某个节点,且实例个数小于阈值时就可以停止生长;
- 定义一个阈值,通过计算每次扩张对系统性能的增益,并比较增益值与阈值大小决定是否停止生长。
预剪枝优缺点
- 优点:避免不必要的节点展开,一定程度上减少训练时间和测试时间
- 缺点:存在欠拟合的风险
父级词:剪枝
同级词:后剪枝