HyperAI

Bootstrap-Sampling / Wiederholbares Sampling / Sampling Mit Zurücklegen

Bei einer Stichprobe beträgt die Wahrscheinlichkeit, dass sie bei jeder Zufallsstichprobe eines Trainingssatzes mit m Stichproben erfasst wird, 1 m. Die Wahrscheinlichkeit, nicht abgeholt zu werden, beträgt 1−1m.

Wenn die Wahrscheinlichkeit, dass nach m Stichproben keine Daten erfasst werden, (1−1m)m beträgt, dann gilt für m→∞ (1−1m)m→1/e≃0,368, d. h. in jeder Runde der Zufallsstichprobenerhebung werden ungefähr 36,8% an Daten aus dem Trainingssatz nicht im Stichprobensatz erfasst.

Nach der Ersatzstichprobe weist der Datensatz einige Datenduplikate und fehlende Daten auf. K Stichproben werden aus N Stichproben entnommen und die Erwartung unterschiedlicher Stichprobenzahlen ist U(K)=N(1−(N−1N)K).