전정
전정이는 의사결정 트리의 분기를 막는 방법입니다. 이는 의사결정 트리의 과적합 문제를 해결하고, 주로 의사결정 트리를 단순화하는 데 사용됩니다.
가지치기의 이유는 의사결정 트리 학습 과정에서 훈련 샘플을 가능한 한 정확하게 분류하기 위해 노드가 계속 생성되는데, 이로 인해 의사결정 트리에 너무 많은 가지가 생겨 효율성이 떨어지기 때문입니다. 이 시점에서는 의사결정 트리를 단순화하기 위해 가지치기 작업이 필요합니다.
가지치기의 중요성
결정 트리 알고리즘은 트리의 최적 크기를 결정해야 합니다. 너무 큰 트리는 과적합되어 새로운 샘플로 일반화하기 어렵습니다. 동시에, 작은 트리는 표본 공간에 대한 구조적 정보를 포착하지 못할 수도 있습니다.
단일 노드가 오류율을 줄이는지 여부를 알 수 없기 때문에 트리 알고리즘을 언제 중단해야 할지 판단하기 어렵습니다. 가장 일반적인 전략은 각 노드에 적은 수의 인스턴스가 포함될 때까지 트리를 키운 다음, 가지치기를 사용하여 불필요한 노드를 제거하는 것입니다.
가지치기의 아이디어와 방법
가지치기 원리는 의사결정 트리의 크기를 결정하는 방법에 있습니다.
- 훈련 및 검증 세트를 사용하여 가지치기 방법이 가지치기 노드에 미치는 영향을 평가합니다.
- 전체 학습 세트를 사용하여 학습을 진행하지만, 통계적 검정을 사용하여 특정 노드를 잘라내는 것이 학습 세트 외부의 데이터에 대한 성능을 향상시키는지 확인합니다.
- 명확한 기준을 사용하여 훈련 예제와 의사결정 트리의 복잡성을 측정합니다.
가지치기의 구체적인 작업은 다음과 같습니다. 의사결정 트리에서 일부 하위 트리 또는 리프 노드를 빼고, 루트 노드 또는 부모 노드를 리프 노드로 사용합니다.
가지치기의 분류
가지치기는 일반적으로 가지치기 전과 가지치기 후의 두 가지 범주로 나뉩니다.