過学習
過学習 機械学習における現象です。これは、サンプル内の分類に必要のない一部の属性が学習される状況を指します。このときに学習された決定木モデルは最適なモデルではなく、汎化パフォーマンスの低下につながります。
過学習の影響
統計と機械学習では、一般にオーバーフィッティングは統計モデル内のランダムなエラーやノイズを記述するために使用されます。通常、パラメータが多すぎるなど、モデルが複雑すぎる場合に発生します。過剰適合はモデルの予測パフォーマンスを弱め、データの変動性を高めます。
過剰適合を避けるために取れる対策
過剰学習につながる要因は数多くありますが、通常は学習能力が強すぎることが原因です。したがって、やみくもに学習データの予測能力の向上を追求すると、選択したモデルの複雑さが実際のモデルよりも高くなることが多く、過学習が発生します。
過剰適合を回避するには、交差検証、正則化、早期停止、Bess 情報基準、Akaike 情報基準、またはモデル比較などの追加のテクニックを使用して、トレーニングを増やしても良好な汎化が得られない場合を示す必要があります。
過学習を解決する方法
1) データを再クリーンアップするこの方法は、データが不純な場合に適しています。
2) トレーニング サンプルの数を減らします。
3) モデルの複雑さを軽減します。
4) 正則化係数を増加します。
5) ドロップアウト方式を使用します。
6)早期停止。
7) 反復回数を減らします。
8) 学習率を高めます。
9) ノイズデータを追加します。
10) ツリー構造での枝刈り。