セルフサービスサンプリング方式/反復可能なサンプリング/置換ブートストラップサンプルを使用したサンプリング
サンプルの場合、m 個のサンプルを含むトレーニング セットのランダム サンプリングで毎回収集される確率は 1m です。収集されない確率は 1−1m です。
m 個のサンプルが収集されない確率が (1−1m)m である場合、m→∞、(1−1m)m→1/e≃0.368、つまりランダム サンプリングの各ラウンドでは、約 36.81 個のサンプルが収集されます。 TP3T データはサンプリング セットには収集されません。
置換サンプリング後のデータセットには、データの重複と欠落データがいくつかあります。N 個のサンプルから K 個のサンプルがサンプリングされます。異なるサンプル数の期待値は、U(K)=N(1-(N-1N)K) です。