機能の選択機能の選択
特徴選択は、モデル構築のために、最も一貫性があり、冗長性がなく、関連性のある特徴のサブセットを分離するプロセスです。データ セットのサイズと種類は増加し続けるため、データ セットのサイズを計画的に削減することが重要です。特徴選択の主な目的は、予測モデルのパフォーマンスを向上させ、モデリングの計算コストを削減することです。
機能選択の使用例
特徴選択は、テキスト分類、リモート センシング、画像検索、マイクロアレイ分析、質量分析分析、配列分析などのさまざまな実際のアプリケーションに適した効果的な前処理手法です。
特徴選択の実際の例をいくつか示します。
- マンモグラフィー画像解析
- 犯罪行為のモデリング
- ゲノムデータ解析
- プラットフォームの監視
- 機械的完全性評価
- テキストクラスタリング
- ハイパースペクトル画像分類
- 配列解析
特徴選択の重要性
機械学習プロセスでは、特徴選択を使用すると、最も重要な変数を選択し、冗長で無関係な変数を削除することにより、アルゴリズムの予測能力も向上します。このため、機能の選択が重要です。
機能選択の主な利点は次の 3 つです。
- 過学習を減らす 少なくする
データが冗長であるということは、ノイズに基づいて意思決定を行う機会が少なくなるということを意味します。 - 精度の向上
誤解を招くデータが減れば、モデリングの精度も向上します。 - トレーニング時間を短縮する
データが少ないほど、アルゴリズムが高速になります。
特徴選択方法
特徴選択アルゴリズムは教師ありと教師なしに分けられます。教師ありはラベル付きデータに使用でき、教師なしはラベルなしデータに使用できます。教師なし手法は、フィルター手法、ラッパー手法、埋め込み手法、またはハイブリッド手法に分類されます。
- フィルタ方式:フィルタリング方法は、特徴選択の相互検証パフォーマンスではなく、統計に基づいて特徴を選択します。選択したメトリクスを適用して無関係な属性を特定し、再帰的な特徴選択を実行します。フィルタリング方法には、特徴サブセットの最終選択を通知するために順序付けされたランク付き特徴リストが構築される単変量、または特徴全体の関連性を評価して冗長で無関係な特徴を識別する多変量があります。
- 梱包方法: ラッピング特徴選択方法は、特徴のセットの選択を検索問題として扱い、特徴の組み合わせの準備、評価、および他の特徴の組み合わせとの比較を通じて特徴の品質を評価します。この方法は、変数間の相互作用の可能性を検出するのに役立ちます。ラッパー メソッドは、選択に使用されるクラスタリング アルゴリズムの結果の品質を向上させるのに役立つ機能のサブセットに焦点を当てます。よくある例としては、Boruta 機能選択や Forward 機能選択などがあります。
- 埋め込み方式: 埋め込み特徴選択手法では、学習アルゴリズムの一部として特徴選択機械学習アルゴリズムが統合されており、分類と特徴選択が同時に実行されます。モデル トレーニング プロセスの各反復に最も寄与する特徴を慎重に抽出します。ランダム フォレスト特徴選択、デシジョン ツリー特徴選択、および LASSO 特徴選択が一般的な埋め込み方法です。
参考文献
【1】https://www.heavy.ai/technical-glossary/feature-selection