HyperAI초신경

가방 밖으로 추정

아웃소싱 견적훈련 세트에 나타나지 않은 테스트 데이터를 사용하여 결정을 내리는 방법입니다.

아웃소싱 견적의 정의

랜덤 포레스트의 배깅 프로세스는 훈련된 의사결정 트리 g마다 , 데이터 세트 D와 다음과 같은 관계가 있습니다.

별표가 표시된 부분은 선택되지 않은 데이터로, Out-of-bag(OOB) 데이터라고 합니다. 충분한 데이터가 있을 때, 모든 데이터 세트(xn, yn)가 가방 밖 데이터일 확률은 다음과 같습니다.

기본 분류기는 훈련 샘플의 부트스트랩 샘플링 세트를 기반으로 구축되었으므로 원래 샘플 세트의 약 63.2%만 에 나타나고 나머지 36.8%의 데이터는 가방 외부 데이터로 사용되며 기본 분류기의 검증 세트로 사용할 수 있습니다.

아웃오브백 추정치는 앙상블 분류기의 일반화 오류에 대한 편향되지 않은 추정치임이 증명되었습니다. 랜덤 포레스트 알고리즘에서 데이터 세트 속성, 분류기 세트 강도, 분류기 간 상관 관계 계산의 중요성은 모두 외부 데이터에 의존합니다.

포장 외부 추정치의 사용

  • 기본 학습자가 의사결정 트리인 경우, 외부 샘플을 사용하여 가지치기를 지원하거나 의사결정 트리의 각 노드의 사후 확률을 추정하여 학습 샘플이 없는 노드를 처리하는 데 도움을 줄 수 있습니다.
  • 기본 학습자가 신경망인 경우, 외부 샘플을 사용하여 과잉 맞춤을 줄이기 위해 조기 중단을 지원할 수 있습니다.
부모 단어: 랜덤 포레스트 알고리즘