Estimation Hors Sac
Devis d'externalisationIl s’agit d’une méthode de prise de décision utilisant des données de test qui n’apparaissent pas dans l’ensemble d’apprentissage.
Définition de l'estimation externalisée
Le processus d'ensachage de la forêt aléatoire, pour chaque arbre de décision formé g t , a la relation suivante avec l'ensemble de données D :

La partie astérisque correspond aux données qui ne sont pas sélectionnées, appelées données Out-of-bag (OOB). Lorsqu'il y a suffisamment de données, la probabilité qu'un ensemble de données (xn, yn) soit des données out-of-bag est :

Étant donné que le classificateur de base est construit sur l'ensemble d'échantillonnage bootstrap des échantillons d'entraînement, seulement environ 63,2 % de l'ensemble d'échantillons d'origine apparaissent dans , tandis que les 36,8 % restants des données sont utilisés comme données prêtes à l'emploi et peuvent être utilisés comme ensemble de validation pour le classificateur de base.
Il a été prouvé que l’estimation out-of-bag est une estimation non biaisée de l’erreur de généralisation du classificateur d’ensemble. L'importance des attributs de l'ensemble de données, la force de l'ensemble des classificateurs et les calculs de corrélation entre les classificateurs dans l'algorithme de forêt aléatoire reposent tous sur des données prêtes à l'emploi.
Utilisations des estimations hors emballage
- Lorsque l'apprenant de base est un arbre de décision, des échantillons hors sac peuvent être utilisés pour aider à l'élagage ou pour estimer la probabilité postérieure de chaque nœud dans l'arbre de décision afin d'aider au traitement des nœuds avec zéro échantillon d'apprentissage ;
- Lorsque l'apprenant de base est un réseau neuronal, des échantillons prêts à l'emploi peuvent être utilisés pour faciliter l'arrêt précoce afin de réduire le surapprentissage.