数据增强 Data Augmentation
数据增强 (Data Augmentation) 也叫数据增广,是一种通过使用现有数据创建数据集的修改副本来人为地增加训练集的技术,它是深度学习中常用的技巧之一,包括对数据集进行微小的更改或使用深度学习来生成新的数据点。 数据增强主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力,现有的各大深度学习框架都已经自带了数据增强。
使用数据增强的场景
- 防止模型过度拟合。
- 初始训练集太小。
- 以提高模型精度。
- 降低标记和清理原始数据集的运营成本。
数据增强的局限性
- 原始数据集中的偏差在增强数据中仍然存在。
- 数据增强的质量保证成本高昂。
- 需要进行研究和开发来构建具有先进应用程序的系统。例如,使用 GAN 生成高分辨率图像可能具有挑战性。
- 寻找有效的数据增强方法可能具有挑战性。