Échantillonnage Bootstrap / Échantillonnage Répétable / Échantillonnage Avec Remise
Pour un échantillon, la probabilité d'être collecté à chaque fois dans un échantillonnage aléatoire d'un ensemble d'apprentissage contenant m échantillons est de 1 m. La probabilité de ne pas être collecté est de 1 à 1 m.
Si la probabilité qu'aucune donnée ne soit collectée après m échantillonnages est (1−1m)m, alors lorsque m→∞, (1−1m)m→1/e≃0,368, c'est-à-dire qu'à chaque tour d'échantillonnage aléatoire, environ 36,8% de données dans l'ensemble d'apprentissage ne sont pas collectées dans l'ensemble d'échantillonnage.
Après un échantillonnage de remplacement, l'ensemble de données comportera des doublons et des données manquantes. K échantillons sont échantillonnés à partir de N échantillons, et l'espérance de différents nombres d'échantillons est U(K)=N(1−(N−1N)K).