사전 퍼닝
사전 가지치기이는 일종의 가지치기 알고리즘으로, 주로 의사결정 트리가 생성되기 전에 수행되는 가지치기 작업을 의미합니다. 이에 상응하는 것은 사후 가지치기로, 의사결정 트리가 생성된 후에 가지치기 작업을 수행하는 것을 목표로 합니다.
의사결정 트리가 성장하는 동안 각 노드 분기가 시작되기 전에 사전 추정이 이루어집니다. 노드 분할이 의사결정 트리의 일반화 성능을 향상시킬 수 없는 경우, 분할을 중단하고 해당 노드를 리프 노드로 표시합니다.
사전 가지치기를 위한 일반적인 전략
- 높이를 정의하고, 의사결정 트리가 이 높이에 도달하면 성장을 멈춥니다.
- 의사결정 트리가 노드에 도달하면, 이러한 인스턴스가 동일한 특징 벡터를 가지며, 동일한 클래스에 속하지 않더라도 의사결정 트리의 성장이 멈출 수 있습니다. 이 방법은 데이터 충돌을 처리하는 데 더 효과적입니다.
- 임계값을 정의합니다. 의사결정 트리가 특정 노드에 도달하고 인스턴스 수가 임계값보다 적으면 성장이 멈출 수 있습니다.
- 임계값을 정의하고, 각 확장이 시스템 성능에 미치는 이득을 계산하고, 이득 값을 임계값과 비교하여 성장을 멈출지 여부를 결정합니다.
사전 가지치기의 장단점
- 장점: 불필요한 노드 확장을 방지하고, 학습 시간과 테스트 시간을 어느 정도 단축할 수 있습니다.
- 단점: 과소적합의 위험이 있습니다.