13 万 4,400 回のシミュレーションから学ぶ、最適な正則化手法の選択
インスタカート所属の研究者らによる 134,400 件のシミュレーションを基にした大規模研究により、機械学習モデルの正則化手法の選択に関する実践的な指針が確立されました。リッジ回帰、ラッソ回帰、エラスティックネット回帰のいずれを選択すべきかは、最適化目標とモデル fitting 前に計算可能な診断値によって決まります。 予測精度の向上が主目的の場合、正則化手法の選択はあまり重要ではありません。3 つの手法間のテスト RMSE の差は median で最大 0.3% 程度であり、実用上はほぼ同等です。この場合、計算速度が最も速く、解析解を持つリッジ回帰をデフォルトとして使用するのが推奨されます。エラスティックネットは計算コストが数倍高く、精度向上の恩恵は限定的です。 変数選択を行う場合、手法の選択は非常に重要となります。特徴量間に高い多重共線性(条件数が 10,000 以上)がある場合、ラッソは相関のある特徴量のグループから一つだけを選択してしまう傾向があり、エラスティックネットに比べ再現率が著しく低下します。また、低倍率や低信号対雑音比(SNR)環境下でもラッソは不安定です。したがって、変数選択が目的の場合は、多重共線性の有無に関わらずエラスティックネット回帰を安全なデフォルトとして選ぶべきです。リッジ回帰は再現率が 100% に達するため F1 スコアが高い場合もありますが、これは実際のスパースなモデルを導出しているわけではありません。 係数推定、つまり解釈可能性や因果推論を目的とする場合は、条件数が判断基準となります。条件数が高い場合、エラスティックネットがラッソやリッジよりも係数推定誤差が 20〜40% 低い結果となりました。条件数が低い場合、係数の真の分布がスパースかどうかというドメイン知識に基づいて選択する必要があります。なお、後段の OLS(最小二乗法)再調整手法は、すべてのシミュレーションにおいて係数推定誤差が大きくなるため避けるべきです。 これらの決定は、サンプル数と特徴量の比率(n/p)、特徴量行列の条件数、およびラッソ CV によって選択される正則化強度α(SNR の代理指標)を事前計算することで導き出せます。n/p が 78 以上であればどの手法でも性能に差がないため、リッジ回帰が最適です。それ未満の場合は、目的と条件数に応じて上記の指針を適用します。最も重要な結論として、正則化手法の微調整よりも、学習データのサンプルサイズを増やすことが全目的においてパフォーマンス向上に最も寄与します。
