HyperAI초신경

오버샘플링

오버샘플링이는 클래스 불균형을 줄이기 위해 학습 세트에서 특정 유형의 예제에 대한 샘플링 시간을 늘리는 것을 의미합니다.

이에 상응하는 방법은 언더샘플링입니다. 즉, 학습 세트에서 특정 유형의 예제에 대한 샘플링 횟수를 줄이는 것을 의미합니다.

오버샘플링 vs 언더샘플링

오버샘플링은 소수 표본을 무작위로 복사하여 크기를 늘립니다. 언더샘플링은 지배적인 계층의 일부를 무작위로 덜 샘플링하는 것입니다.

오버샘플링의 이점은 오류의 양을 복제한다는 것입니다. 반대로, 표본 추출이 부족하면 독립 변수의 분산이 실제보다 더 높아 보일 수 있습니다.

오버샘플링과 클래스 불균형

클래스 불균형은 분류기를 훈련하는 데 사용되는 훈련 세트에서 클래스가 고르지 않게 분포되는 것을 말합니다. 예를 들어, 이진 분류 문제의 경우 1,000개의 학습 샘플이 있습니다. 이상적으로는 양성 샘플과 음성 샘플의 수가 비슷해야 합니다. 하지만 양성 샘플이 995개이고 음성 샘플이 5개뿐이라면 클래스 불균형이 있다는 것을 의미합니다.

범주 불균형으로 인해 모델은 몇 가지 범주를 구별하는 방법을 배우지 못하게 되고, 이로 인해 판단에 편차가 발생합니다.

클래스 불균형은 오버샘플링, 언더샘플링 및 θ 값 조정을 통해 해결할 수 있습니다. 오버샘플링과 언더샘플링은 훈련 세트의 샘플 수에 따라 적절한 샘플링 방법을 만드는 데 사용되며 궁극적으로 범주 불균형을 완화합니다.

상위 단어: 샘플링
동의어; 언더샘플링