データ拡張データ拡張
データ拡張 (データ拡張とも呼ばれます) は、既存のデータを使用してデータ セットの変更されたコピーを作成することにより、トレーニング セットを人為的に増やす技術です。、これはディープ ラーニングで一般的に使用される手法の 1 つであり、データ セットに小さな変更を加えたり、ディープ ラーニングを使用して新しいデータ ポイントを生成したりすることが含まれます。 データ強化は主に、トレーニング データ セットを増やし、データ セットを可能な限り多様にし、トレーニングされたモデルがより強力な一般化機能を持つようにするために使用されます。既存の主要な深層学習フレームワークにはすべてデータ強化が組み込まれています。
データ拡張を使用するシナリオ
- モデルの過学習を防止します。
- 初期トレーニング セットが小さすぎます。
- モデルの精度を向上させるため。
- 生データセットのラベル付けとクリーニングにかかる運用コストを削減します。
データ拡張の制限
- 元のデータセットの偏りは、拡張されたデータにも依然として存在します。
- データ拡張の品質保証にはコストがかかります。
- 高度なアプリケーションを備えたシステムを構築するには、研究開発が必要です。たとえば、GAN を使用して高解像度の画像を生成するのは困難な場合があります。
- 効果的なデータ増強方法を見つけるのは難しい場合があります。