超参数 Hyperparameters

在机器学习中,超参数(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。而其他参数(例如节点权重)的值是通过训练得出的。超参数是决定机器学习算法如何从数据中学习的配置选择,它们由用户设置,并且在训练过程中不会被学习。超参数的示例包括学习率、神经网络中隐藏层的数量、随机森林中决策树的数量以及线性回归中的正则化参数。

超参数可分为模型超参数 (Model Hyperparameters) 和算法超参数 (Algorithm Hyperparameters) 。模型超参数主要用于模型选择,其无助于学习训练集特征;而算法超参数理论上对模型的性能没有影响,而会影响学习的速度和质量。一个典型的模型超参数是神经网络的拓扑结构及大小;而学习率和批大小 (Batch size) 、小批大小 (Mini-Batch size) 则是典型的算法超参数。

不同的模型训练算法需要用到不同的超参数,一些简单的算法(如普通最小二乘回归)不需要超参数。选择适当的超参数至关重要,因为它直接影响机器学习模型的性能和行为。将超参数设置得太低可能会导致欠拟合,即模型无法捕获数据中的潜在模式。相反,将它们设置得太高可能会导致过度拟合,模型变得过于复杂并记住训练数据,而不是很好地推广到未见过的数据。超参数调整是为给定的机器学习任务找到最佳超参数组合的过程。它通常通过网格搜索、随机搜索或更高级的技术(如贝叶斯优化)来完成。通过系统地探索超参数的不同组合,研究人员可以确定在验证集上最大化模型性能的配置。

参考来源

【1】https://zh.wikipedia.org/wiki/%E8%B6%85%E5%8F%82%E6%95%B0_(%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0)

【2】https://encord.com/glossary/hyper-parameters-definition/