欠采样 Undersampling

欠采样是一种缓解类不平衡的方法,其通过抛弃样本的方式来实现,可理解为对训练集内样本数量较多的类别进行少采样。

数据中欠采样的目的,解决采样过程中类别不均的问题。除了欠采样和过采样,两种技术组合成混合策略也是可行的,如 SMOTE 和 Tomek 链接、 SMOTE 和 编辑的最近邻居 ENN 。

在不平衡数据集上学习的其他方法,如称量训练实例,均为正面和负面示例引入不同的错误分类和引导成本。

相关词:过采样、类不均衡

参考来源

【1】https://www.cnblogs.com/Determined22/p/5772538.html

【2】https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis