과적합
과적합 이는 머신러닝에서 나타나는 현상입니다. 이는 분류에 필요하지 않은 샘플의 일부 속성이 학습되는 상황을 말합니다. 이 경우, 학습된 의사결정 트리 모델은 최적의 모델이 아니며 일반화 성능이 저하됩니다.
과적합의 영향
통계와 머신 러닝에서 과잉적합은 일반적으로 통계 모델에서의 무작위 오류나 노이즈를 설명하는 데 사용됩니다. 일반적으로 모델이 너무 복잡할 때, 즉 매개변수가 너무 많을 때 발생합니다. 과도한 적합은 모델의 예측 성능을 약화시키고 데이터의 변동성을 증가시킵니다.
과잉적합을 피하려면 어떻게 해야 하나요?
과도한 학습 능력으로 인해 일반적으로 과잉 적합이 발생할 수 있는 요인은 여러 가지가 있습니다. 따라서 학습 데이터의 예측 능력을 향상하는 데만 맹목적으로 집중하다 보면 선택된 모델의 복잡도가 실제 모델보다 높아지는 경우가 많아 과적합이 발생하게 됩니다.
과도한 적합을 피하기 위해서는 교차 검증, 정규화, 조기 중단, 베이지안 정보 기준, 아카이케 정보 기준, 모델 비교와 같은 추가적인 기술을 사용하여 더 많은 학습이 더 나은 일반화로 이어지지 않는 경우를 나타내는 것이 필요합니다.
과적합을 해결하는 방법
1) 데이터를 다시 정리합니다. 이 방법은 데이터가 불순한 상황에 적합합니다.
2) 훈련 샘플 수를 줄이세요.
3) 모델의 복잡성을 줄입니다.
4) 정규화 항 계수를 증가시킵니다.
5) 드롭아웃 방법을 사용하세요.
6) 조기 중단
7) 반복 횟수를 줄이세요.
8) 학습률을 높입니다.
9) 노이즈 데이터 추가
10) 트리 구조에서 가지치기를 수행합니다.