间隔理论 Margin Theory
间隔理论是支持向量机中的概念,其中间隔是指超平面划分两类样本之间的最小距离,而间隔理论可被用于解释 AdaBoost 算法在训练误差为 0 的情况下,继续训练可进一步提升模型的泛化性能。
令 x 和 y 代表样例的输入和输出空间,D 是 x · y 上的样例真实分布,而 S= 是样例 D 上的抽样,在假设空间 H 中,基分类器 h : x → y 进行加权组合形成的集成分类器 f ∈ C(H),即 H 的凸包。
在 AdaBoost 算法中,集成分类器 f(x) 由一系列基分类器加权投票产生结果,即 。其中
,基于强分类器定义,可以定义如下间隔:
即正确投票与错误投票的加权差。