HyperAI

Rapport De Gain

Taux de gainFait généralement référence au taux de gain d'informations, qui représente le rapport entre les informations du nœud et la mesure des informations de division du nœud. Le taux de gain est généralement utilisé comme l’une des méthodes de sélection des attributs. Les deux autres méthodes courantes sont le gain d’informations et l’indice de Gini.

La formule du taux de gain est la suivante :

En général, l’attribut avec le taux de gain le plus élevé est considéré comme le meilleur attribut de division. S'il y a trop de valeurs d'un seul attribut, SplitInfoR(D) deviendra plus grand, ce qui conduira à un GainRatio(R) plus petit. Cependant, le taux de gain présente également des inconvénients. Si SplitInfo(D) est 0, alors il n'y a aucune signification de calcul ; et lorsque SplitInfo(D) tend vers 0, la valeur GainRatio(R) devient peu fiable. La mesure d’amélioration consiste à ajouter un lissage au dénominateur. Ici, une valeur moyenne de toutes les informations divisées est ajoutée :

Références

【1】Explication détaillée du gain d'information et du taux de gain d'information

【2】Série sur l'exploration de données - Algorithme de classification par arbre de décision