
要約
木ブースティングは、非常に効果的で広く使用されている機械学習手法です。本論文では、データサイエンティストが多くの機械学習課題において最先端の結果を達成するために広く使用されているスケーラブルなエンドツーエンドの木ブースティングシステムであるXGBoostについて説明します。私たちは、疎なデータに対する新しいスパーシティ対応アルゴリズムと、近似木学習のための重み付きクォンタイルスケッチを提案します。さらに重要な点として、キャッシュアクセスパターン、データ圧縮、シャーディングに関する洞察を提供し、これらを組み合わせることでXGBoostは既存のシステムよりもはるかに少ないリソースで数十億以上のサンプルを処理できるようにしています。注:「sparsity-aware algorithm」(スパーシティ対応アルゴリズム)、「weighted quantile sketch」(重み付きクォンタイルスケッチ)は専門的な用語であり、一般的な日本語表現では上記のように訳されます。