SR-Forest : Une méthode d’apprentissage par ensemble hétérogène basée sur la programmation génétique
Les méthodes d’apprentissage par ensemble ont été largement utilisées en apprentissage automatique ces dernières années en raison de leur excellent pouvoir prédictif. Avec le développement des méthodes d’analyse symbolique basées sur la programmation génétique, de nombreuses études choisissent désormais une méthode d’ensemble populaire, les forêts aléatoires (random forests), comme référence de comparaison. Au lieu de les considérer comme des concurrents, une approche alternative consisterait à envisager l’analyse symbolique comme une technique d’amélioration des forêts aléatoires. Les méthodes d’analyse symbolique fondées sur la programmation génétique, qui s’ajustent à des fonctions lisses, s’accompagnent naturellement de la nature en morceaux des arbres de décision, étant donné que les variations continues sont fréquentes dans les problèmes de régression. Dans cet article, nous proposons de construire un modèle d’ensemble à partir d’arbres de décision basés sur l’analyse symbolique afin de traiter ce problème. En outre, nous avons conçu un opérateur de mutation guidée afin d’accélérer la recherche sur des problèmes à haute dimension, une stratégie d’évaluation multi-fidélité pour réduire le coût computationnel, ainsi qu’un mécanisme de sélection d’ensembles pour améliorer la performance prédictive. Enfin, les résultats expérimentaux sur une base de données de régression comprenant 120 jeux de données montrent que le modèle d’ensemble proposé surpasse 25 méthodes existantes d’analyse symbolique et d’apprentissage par ensemble. De plus, la méthode proposée permet d’obtenir des insights significatifs dans une tâche de prédiction de performance de hyperparamètres pour XGBoost, un domaine d’application crucial des méthodes d’apprentissage par ensemble.