HyperAI초신경

부트스트랩 샘플링 / 반복 샘플링 / 대체 샘플링

샘플의 경우, m개의 샘플을 포함하는 훈련 세트의 무작위 샘플링에서 매번 수집될 확률은 1m입니다. 수집되지 않을 확률은 1−1m입니다.

m번 샘플링 후 데이터가 수집되지 않을 확률이 (1−1m)m이면 m→∞일 때 (1−1m)m→1/e≃0.368, 즉 무작위 샘플링의 각 라운드에서 학습 세트의 약 36.8% 데이터가 샘플링 세트에서 수집되지 않습니다.

교체 샘플링 후에는 데이터 세트에 일부 데이터 중복이 생기고 일부 데이터는 누락될 것입니다. K개의 샘플은 N개의 샘플에서 샘플링되며, 서로 다른 샘플 번호에 대한 기대는 U(K)=N(1−(N−1N)K)입니다.