편향-분산 트레이드오프
통계와 머신 러닝에서 편향-분산 상충관계는 모델의 복잡성, 예측 정확도, 모델을 학습하는 데 사용되지 않은 이전에 본 적 없는 데이터에 대한 예측을 수행하는 능력 간의 관계를 설명합니다.일반적으로, 모델에서 조정 가능한 매개변수의 수를 늘릴수록 모델은 더 유연해지고 학습 데이터 세트에 더 잘 맞을 수 있습니다. 그러나 더 유연한 모델의 경우 새로운 학습 데이터 세트를 생성하기 위해 새로운 샘플을 가져올 때마다 모델 적합성이 더 커지는 경향이 있습니다.
편향-분산 딜레마 또는 편향-분산 문제는 이 두 가지 오류의 근원을 동시에 최소화하려는 시도에서 발생하는 갈등입니다.이러한 두 가지 오류 소스는 지도 학습 알고리즘이 학습 세트를 넘어 일반화하는 것을 방해합니다.
- 편향 오류는 학습 알고리즘의 잘못된 가정으로 인해 발생하는 오류입니다. 높은 편향으로 인해 알고리즘이 특성과 대상 출력 간의 관련 관계를 놓칠 수 있습니다(과소적합).
- 분산은 훈련 세트의 작은 변동에 대한 민감성으로 인해 발생하는 오류입니다. 훈련 데이터에서 무작위 노이즈를 모델링하는 알고리즘은 높은 분산(과적합)을 초래할 수 있습니다.
편향-분산 균형은 지도 학습의 핵심 문제입니다. 이상적인 상황은 훈련 데이터의 패턴을 정확하게 포착하고 보이지 않는 데이터에도 잘 일반화되는 모델을 선택하는 것입니다. 불행히도, 두 가지를 동시에 하는 것은 보통 불가능합니다. 분산이 높은 학습 방법은 훈련 데이터를 잘 표현할 수 있지만, 노이즈가 많거나 대표성이 없는 훈련 데이터에 과도하게 적합될 위험이 있습니다. 반대로, 편향성이 높은 알고리즘은 종종 데이터의 중요한 규칙성을 포착하지 못할 수 있는 더 간단한 모델을 생성합니다(즉, 과소적합).
참고문헌
【1】https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff