XGBoost : Un système d'amplification d'arbres évolutif

Le boosting d'arbres est une méthode d'apprentissage automatique hautement efficace et largement utilisée. Dans cet article, nous décrivons un système de boosting d'arbres évolutif et complet appelé XGBoost, qui est utilisé par de nombreux scientifiques des données pour obtenir des résultats de pointe dans de nombreux défis d'apprentissage automatique. Nous proposons un nouvel algorithme prenant en compte la parcimonie (sparsity-aware) pour les données éparse ainsi qu'une esquisse pondérée des quantiles (weighted quantile sketch) pour l'apprentissage approché des arbres. Plus important encore, nous fournissons des éclairages sur les modèles d'accès au cache, la compression des données et le fractionnement (sharding) pour construire un système de boosting d'arbres évolutif. En combinant ces éclairages, XGBoost peut traiter des milliards d'exemples avec beaucoup moins de ressources que les systèmes existants.