摘要
随机森林(Random Forest, RF)是一种基于集成学习的机器学习方法,近年来已被广泛应用于各类机器学习任务。本文提出一种进化方法,用于构建适用于回归问题的斜向随机森林(oblique RF)。具体而言,本方法通过进化特征构造技术将原始特征空间映射至一个新的特征空间,从而生成斜向划分的随机森林。为加速搜索过程,所提出的方法基于决策树(Decision Tree, DT)对每组特征进行评估,而非直接使用随机森林。在搜索过程中,系统会保存表现优异的特征组合及其对应的决策树。通过这种方式,可在一次运行中同时完成特征构建与随机森林的生成。所提出的进化型随机森林在117个具有不同特性的基准回归问题上进行了测试,并与多种先进的回归方法进行了比较,包括多种随机森林变体及梯度提升决策树(Gradient Boosted Decision Trees, GBDTs)。实验结果表明,所提出的方法在性能上优于现有的随机森林与GBDT方法。