HyperAI초신경

이득 비율

이득율일반적으로 정보 이득률을 의미하며, 노드 정보와 노드 분할 정보 측정값의 비율을 나타냅니다. 이득률은 일반적으로 속성 선택 방법 중 하나로 사용됩니다. 다른 두 가지 일반적인 방법은 정보 이득과 지니 지수입니다.

이득율 공식은 다음과 같습니다.

일반적으로 가장 큰 이득률을 갖는 속성이 최상의 분할 속성으로 간주됩니다. 단일 속성의 값이 너무 많으면 SplitInfoR(D)가 커지고, 이로 인해 GainRatio(R)이 작아집니다. 그러나 이득률에도 단점이 있습니다. SplitInfo(D)가 0이면 계산의 의미가 없습니다. 그리고 SplitInfo(D)가 0에 가까워지면 GainRatio(R) 값은 신뢰할 수 없게 됩니다. 개선 방안은 분모에 평활화를 추가하는 것입니다. 여기에는 모든 분할 정보의 평균값이 추가됩니다.

참고문헌

【1】정보 이득 및 정보 이득률에 대한 자세한 설명

【2】데이터 마이닝 시리즈 - 의사결정 트리 분류 알고리즘