HyperAI超神経

剪定

剪定決定木の分岐を止める方法で、主に決定木を単純化するために、決定木の過学習の問題を解決するために使用されます。

枝刈りの理由は、決定木の学習プロセスでは、トレーニング サンプルをできるだけ正確に分類するためにノードが継続的に生成されるため、決定木の分岐が多すぎて効率が低下するためです。 、デシジョン ツリーを簡素化するには枝刈り操作が必要です。

剪定の意味

デシジョン ツリー アルゴリズムは、ツリーの最適なサイズを決定する必要があります。大きすぎるツリーは過剰適合し、新しいサンプルに一般化することが困難になります。同時に、小さなツリーはサンプルに関する構造情報を取得できない可能性があります。空間。

単一のノードでエラー率が減少するかどうかを判断することは不可能であるため、ツリー アルゴリズムの停止時間も判断が困難です。最も一般的な戦略は、各ノードに含まれるインスタンスの数が少なくなるまでツリーを成長させ、その後枝刈りを使用することです。不要なノードを削除します。

剪定の考え方と方法

枝刈りの原則は、決定木のサイズを決定する方法にあります。

  • トレーニング セットと検証セットを使用して、枝刈りノードに対する枝刈りメソッドの効果を評価します。
  • トレーニングにはトレーニング セット全体を使用しますが、統計テストを使用して、特定のノードを枝刈りすることでトレーニング セット外のデータのパフォーマンスがどのように向上するかを判断します。
  • 明確な指標を使用して、トレーニング サンプルとデシジョン ツリーの複雑さを測定します。

枝刈りの具体的な操作は、決定木からいくつかのサブツリーまたはリーフ ノードを減算し、ルート ノードまたは親ノードをリーフ ノードとして使用することです。

剪定の分類

剪定は通常、剪定前と剪定後の 2 つのカテゴリに分類されます。

親用語: デシジョン ツリー
サブ語彙: 剪定前、剪定後