17 天前

使用数据增强提升模型性能并解决类别不平衡问题

{Dr. Venkateswara Rao Gurrala, Allena Venkata Sai Abhishek}
摘要

现实世界中的数据通常包含多种复杂的特征,其中一种普遍存在且具有挑战性的问题是类别不平衡,即数据集中不同类别样本的数量极不均衡。为解决这一问题,研究者通常采用多种采样技术对数据进行处理。数据增强(Augmentation)是机器学习流程中的关键步骤之一,常用于对少数类样本进行过采样,以缓解类别不平衡带来的负面影响。本文旨在通过引入多种数据增强方法,构建多样化的平衡增强数据集,并结合随机采样策略,有效消除类别不平衡问题,从而提升模型性能。实验采用RESNET18模型,在每种增强方法下均训练至100个周期(epochs),并记录各方法对应的模型准确率。通过对不同增强技术在相同训练条件下所得准确率的迭代比较,揭示了各类增强策略在提升模型表现方面的显著差异与内在规律,为选择最优增强方案提供了有力的实证依据。