
摘要
树提升是一种高效且广泛使用的机器学习方法。本文描述了一种名为XGBoost的可扩展端到端树提升系统,该系统被数据科学家广泛应用于许多机器学习挑战中,以实现最先进的结果。我们提出了一种针对稀疏数据的新颖稀疏感知算法以及用于近似树学习的加权分位数素描(weighted quantile sketch)。更重要的是,我们提供了关于缓存访问模式、数据压缩和分片的见解,以构建一个可扩展的树提升系统。通过结合这些见解,XGBoost能够在资源远少于现有系统的情况下处理超过数十亿个样本。
树提升是一种高效且广泛使用的机器学习方法。本文描述了一种名为XGBoost的可扩展端到端树提升系统,该系统被数据科学家广泛应用于许多机器学习挑战中,以实现最先进的结果。我们提出了一种针对稀疏数据的新颖稀疏感知算法以及用于近似树学习的加权分位数素描(weighted quantile sketch)。更重要的是,我们提供了关于缓存访问模式、数据压缩和分片的见解,以构建一个可扩展的树提升系统。通过结合这些见解,XGBoost能够在资源远少于现有系统的情况下处理超过数十亿个样本。