摘要
近年来,集成学习方法因其优异的预测性能而在机器学习领域得到广泛应用。随着基于遗传编程的符号回归方法的发展,许多研究开始将一种流行的集成学习方法——随机森林(Random Forests)作为基准对比模型。然而,与其将二者视为竞争关系,另一种更具建设性的思路是将符号回归视为对随机森林的增强技术。基于遗传编程的符号回归方法能够拟合光滑函数,这与决策树固有的分段特性形成互补,而光滑变化在回归问题中普遍存在。为此,本文提出构建一种基于符号回归的决策树集成模型,以解决这一问题。此外,我们设计了一种引导式变异算子,以加速高维问题的搜索过程;提出一种多保真度评估策略,有效降低计算成本;并引入集成选择机制,进一步提升模型的预测性能。在包含120个数据集的回归基准测试中,实验结果表明,所提出的集成模型在25种现有的符号回归与集成学习方法中表现最优。此外,该方法在XGBoost超参数性能预测任务中展现出显著的洞察力,而该任务正是集成学习方法的重要应用领域之一。