HyperAI

Instacart 两位研究人员 Ahsaas Bajaj 和 Benjamin S. Knight 基于真实生产环境数据，运行了 134,400 次模拟实验，旨在解决机器学习实践中“该使用何种正则化方法”的难题。研究覆盖了 960 种配置，评估了 Ridge、Lasso、ElasticNet 及 Post-Lasso OLS 在预测精度、变量选择和系数估计三大目标上的表现。研究发现，对于仅需预测准确性的场景，Ridge 回归是首选。四种方法在预测误差上的差异微乎其微，且 Ridge 因具备闭式解，运算速度显著快于其他方法。除非在极小样本且信噪比极高的特殊情况下，ElasticNet 才可能带来微弱提升，但性价比不高。在变量选择任务中，ElasticNet 表现最为稳健。当特征存在高多重共线性时，Lasso 倾向于随机剔除相关特征，导致召回率骤降；而 ElasticNet 利用其混合惩罚机制，能更好地将相关特征保留在一起。即使在没有高共线性的情况下，只要信噪比不明确，ElasticNet 依然比 Lasso 更安全。值得注意的是，虽然 Ridge 回归因保留所有特征而召回率完美，但其并非真正的变量选择方法。对于系数估计，条件数是关键决策指标。在高多重共线性条件下，ElasticNet 的系数误差显著优于其他方法；在低共线性条件下，则需依据先验知识判断模型稀疏度，若模型稀疏可考虑 Lasso，否则首选 ElasticNet。研究还发现，Post-Lasso OLS 在所有场景下表现不佳，应避免使用。综合来看，决定正则化方法效果的最核心因素是样本量。当样本与特征之比大于 78 时，所有方法性能趋同，建议直接使用最快的 Ridge 回归以节省计算资源。在样本量较小且情况不明时，ElasticNet 是最稳妥的默认选项。研究人员建议，工程师在建模前仅需计算样本特征比、条件数及一个快速的 LassoCV 参数作为信噪比代理，即可依据此框架做出最优选择。

相关链接

相关链接

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

Command Palette

13.4万次模拟揭示：究竟该选用哪种正则化？

相关链接

Command Palette

13.4万次模拟揭示：究竟该选用哪种正则化？

相关链接

Command Palette

13.4万次模拟揭示：究竟该选用哪种正则化？

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征