增益率 Gain ratio

增益率通常指信息增益率,其表示节点的信息与节点分裂信息度量的比值,增益率通常作为属性选择的方法之一,另外两种常见的方式是信息增益和基尼指数。

增益率公式如下:

通常取增益率最大的属性作为最佳分裂属性,若单属性的取值过多,那么 SplitInfoR(D) 会变大,进而导致 GainRatio(R) 变小,但增益率也存在缺点,若 SplitInfo(D) 为 0,那么就没有计算意义;且当 SplitInfo(D) 趋向于 0 时,GainRatio(R) 值也变的不可信,改进措施就是在分母加上平滑,此处加一个所有分裂信息的平均值:

参考来源

【1】信息增益与信息增益率详解

【2】数据挖掘系列-决策树分类算法