HyperAI

Sous-échantillonnage

Sous-échantillonnageIl s’agit d’une méthode visant à atténuer le déséquilibre des classes en éliminant des échantillons, ce qui peut être compris comme un sous-échantillonnage des catégories avec un grand nombre d’échantillons dans l’ensemble d’apprentissage.

Le but du sous-échantillonnage des données est de résoudre le problème des catégories inégales lors de l’échantillonnage. Outre le sous-échantillonnage et le suréchantillonnage, il est également possible de combiner les deux techniques dans des stratégies hybrides, telles que SMOTE et Tomek Link, SMOTE et Edited Nearest Neighbor ENN.

D’autres approches d’apprentissage sur des ensembles de données déséquilibrés, telles que la pondération des instances d’entraînement, introduisent des coûts de classification erronée et d’amorçage différents pour les exemples positifs et négatifs.

Termes connexes : suréchantillonnage, déséquilibre de classe

Références

【1】https://www.cnblogs.com/Determined22/p/5772538.html

【2】https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis