HyperAI초신경

홀드아웃

리브아웃 방식데이터 집합 D를 두 개의 상호 배타적인 집합으로 나누는 모델 평가 방법입니다. 한 세트를 훈련 세트 S라고 가정하고 다른 세트를 테스트 세트 T라고 가정하면 다음과 같습니다.

D = S ∪ T , S ∩ T = ∅

훈련/테스트 세트를 나눌 때는 데이터 분포를 최대한 일관되게 유지해야 합니다. 결과에 영향을 미치는 데이터 분할 과정에서 발생하는 추가적인 편향을 피하기 위해 일반적으로 계층화 표본 추출이 사용됩니다.

다양한 분할 방법에 따라 학습/테스트 세트가 달라지므로, 해당 모델 평가 결과도 달라집니다. 따라서 홀드아웃 방법을 한 번만 사용하여 얻은 추정 결과는 대부분 신뢰할 수 없습니다. 일반적으로 여러 번의 무작위 분할과 반복적인 실험적 평가가 필요하며, 그 평균값을 평가 결과로 취합니다.