HyperAI초신경

가지치기 후

가지치기 후의사결정 트리가 생성된 후 수행되는 가지치기 작업을 말합니다. 이 방법은 완전한 의사결정 트리를 기반으로 하며 트리가 훈련 데이터에 과대적합되도록 합니다. 신뢰도가 부족한 노드 단어의 경우, 서브 트리는 리프 노드로 대체되고, 리프의 클래스 레이블은 노드 서브 트리에서 가장 빈번한 클래스로 표시됩니다.

사후 가지치기 프로세스는 동일한 부모 노드를 가진 노드 그룹을 검사하여 병합 시 엔트로피 증가가 특정 임계값보다 낮은지 확인하는 것입니다. 임계값이 작으면 여러 노드 그룹을 하나로 병합하여 모든 가능한 결과를 포함할 수 있습니다.

가지치기 후 방법

기존 트리를 기반으로 테스트 데이터를 분할합니다.

  • 부분집합이 트리인 경우, 해당 부분집합에 대해 재귀적으로 가지치기 과정을 수행합니다.
  • 결합되지 않은 오류를 계산합니다.
  • 병합을 통해 오류가 줄어들면 리프 노드를 병합합니다.

포스트 프루닝 알고리즘 목록

1) 오류 감소 가지치기(REP)

2) 비관적 가지치기는 EBP(오류 기반 가지치기) 비용이 발생합니다.

3) 비용-복잡성 제거(CCP)

4) 오류 기반 가지치기 PEP(Pesimistic-Error Pruning) .

가지치기 전과 가지치기 후의 비교

앞쪽 임계값의 설정은 매우 민감하며, 작은 변화도 전체 트리에 변화를 초래합니다. 이에 비해 사후 가지치기 방식은 더 나은 결과를 낳습니다.

가지치기를 한 후에는 가지가 더 많이 유지되고 가지치기 전보다 과소적합의 위험이 낮아집니다. 그러나 사후 가지치기는 훈련된 의사결정 트리를 기반으로 하며 하향식 레이어별 스캐닝 방법을 사용합니다. 따라서 사전 가지치기보다 훈련 시간과 비용이 더 많이 든다.

전면 가지치기와 비교했을 때, 후면 가지치기 방법이 더 일반적입니다. 그 이유는 전면 가지치기 방법에서는 나무 성장을 언제 멈춰야 할지 정확하게 예측하기가 더 어렵기 때문입니다.

부모 단어: 가지치기
관련어: 사전 가지치기