ゲイン比ゲイン比

ゲインレート通常、ノード分割情報尺度に対するノードの情報の比率を表す情報利得率を指します。利得率は、通常、属性選択方法の 1 つとして使用されます。他の 2 つの一般的な方法は、情報利得とジニ インデックスです。

ゲイン率の式は次のとおりです。

通常、最大のゲイン率を持つ属性が最適な分割属性として採用されます。ただし、1 つの属性の値が多すぎると、SplitInfoR(D) が大きくなり、GainRatio(R) が小さくなります。ゲイン率にも欠点があり、SplitInfo(D) が 0 の場合は計算の意味がなくなり、SplitInfo(D) が 0 になる傾向がある場合、GainRatio(R) の値も信頼できなくなります。改善策は平滑化を追加することです。を分母に加え、ここにすべての分割情報の値を加算します。

参考文献

【1】情報獲得と情報獲得率の詳しい説明

【2】データ マイニング シリーズ - デシジョン ツリー分類アルゴリズム