过采样 Oversampling

过采样是指对训练集里的某类样例增加采样次数以减小类别不平衡。

与之相对应的是欠采样,是指对训练集里的某类样例减少采样次数。

过采样和欠采样的对比

过采样会随机复制少数样例以增大它们的规模。欠采样则随机地少采样主要的类。

过采样的好处是它也会复制误差的数量。相对地,欠采样会让独立变量的方差看起来比其实际的方差更高。

过采样和类别不平衡

类别不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题, 1000 个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有 995 个、负类样本仅 5 个,就意味着存在类别不平衡。

类别不平衡会导致模型没有学习到如何判别少类别,会在判断是出现偏差。

类别不平衡可以通过过采样、欠采样和调整 θ 值的方式去解决。其中过采样和欠采样是针对训练集里的样本数量,去相应的作出合适的采样方法,最终缓解类别不平衡。

父级词:采样法
同级词;欠采样