アンダーサンプリングこれは、クラスの不均衡を緩和する方法であり、サンプルを破棄することで実現されます。これは、トレーニング セット内のサンプル数が多いカテゴリーをアンダーサンプリングすることとして理解できます。
データのアンダーサンプリングの目的は、サンプリング プロセスにおけるカテゴリの不均一の問題を解決することです。アンダーサンプリングとオーバーサンプリングに加えて、SMOTE と Tomek リンク、SMOTE と編集された最近傍 ENN などのハイブリッド戦略に 2 つの技術を組み合わせることも可能です。
トレーニング インスタンスの重み付けなど、不均衡なデータセットを学習する他の方法では、正の例と負の例で異なる誤分類コストとブートストラップ コストが発生します。
【1】https://www.cnblogs.com/Determined22/p/5772538.html
【2】https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis