Suréchantillonnage
SuréchantillonnageCela signifie augmenter les temps d’échantillonnage d’un certain type d’exemples dans l’ensemble d’entraînement pour réduire le déséquilibre des classes.
La méthode correspondante est le sous-échantillonnage, ce qui signifie réduire le nombre de fois d'échantillonnage pour un certain type d'exemples dans l'ensemble d'apprentissage.
Suréchantillonnage vs sous-échantillonnage
Le suréchantillonnage copie aléatoirement des exemples minoritaires pour augmenter leur taille. Le sous-échantillonnage échantillonne de manière aléatoire une plus petite partie de la classe dominante.
L’avantage du suréchantillonnage est qu’il reproduit également la quantité d’erreur. À l’inverse, un sous-échantillonnage peut donner l’impression que la variance des variables indépendantes est plus élevée qu’elle ne l’est en réalité.
Suréchantillonnage et déséquilibre de classe
Le déséquilibre des classes fait référence à la répartition inégale des classes dans l'ensemble d'apprentissage utilisé pour entraîner un classificateur. Par exemple, pour un problème de classification binaire, il y a 1 000 échantillons d’apprentissage. Idéalement, le nombre d’échantillons positifs et négatifs devrait être similaire. Cependant, s’il y a 995 échantillons positifs et seulement 5 échantillons négatifs, cela signifie qu’il y a un déséquilibre de classe.
Le déséquilibre des catégories empêchera le modèle d’apprendre à distinguer quelques catégories, ce qui entraînera des écarts de jugement.
Le déséquilibre des classes peut être résolu par suréchantillonnage, sous-échantillonnage et ajustement de la valeur de θ. Le suréchantillonnage et le sous-échantillonnage sont utilisés pour créer des méthodes d'échantillonnage appropriées en fonction du nombre d'échantillons dans l'ensemble d'apprentissage, atténuant ainsi le déséquilibre des catégories.