HyperAI

Taille

TailleC'est une méthode pour empêcher l'arbre de décision de se ramifier. Il est utilisé pour résoudre le problème de surajustement dans les arbres de décision, principalement pour simplifier l'arbre de décision.

La raison de l'élagage est que pendant le processus d'apprentissage de l'arbre de décision, afin de classer les échantillons d'entraînement aussi correctement que possible, des nœuds seront générés en continu, ce qui entraînera trop de branches dans l'arbre de décision, réduisant ainsi l'efficacité. À ce stade, des opérations d’élagage sont nécessaires pour simplifier l’arbre de décision.

L'importance de la taille

L'algorithme de l'arbre de décision doit déterminer la taille optimale de l'arbre. Un arbre trop grand sera sur-ajusté et sera difficile à généraliser à de nouveaux échantillons. Dans le même temps, un petit arbre peut ne pas être en mesure de capturer des informations structurelles sur l’espace échantillon.

Il est également difficile de déterminer quand arrêter un algorithme d’arbre, car il est impossible de dire si un seul nœud réduira le taux d’erreur. La stratégie la plus courante consiste à développer l’arbre jusqu’à ce que chaque nœud contienne un petit nombre d’instances, puis à utiliser l’élagage pour supprimer les nœuds inutiles.

Idées et méthodes de taille

Le principe de l'élagage réside dans la manière de déterminer la taille de l'arbre de décision :

  • Utiliser des ensembles d’entraînement et de validation pour évaluer l’effet des méthodes d’élagage sur les nœuds d’élagage ;
  • Utilisez l’ensemble d’entraînement complet pour l’entraînement, mais utilisez des tests statistiques pour déterminer si l’élagage de nœuds spécifiques améliore les performances sur les données en dehors de l’ensemble d’entraînement.
  • Utilisez des critères explicites pour mesurer la complexité des exemples de formation et des arbres de décision.

L'opération spécifique de l'élagage est la suivante : soustraire certains sous-arbres ou nœuds feuilles de l'arbre de décision, puis utiliser le nœud racine ou le nœud parent comme nœud feuille.

Classification de la taille

La taille est généralement divisée en deux catégories : la pré-taille et la post-taille

Terme parent : arbre de décision
Sous-vocabulaire : pré-taille, post-taille