Command Palette
Search for a command to run...
间隔理论 Margin Theory
日期
间隔理论是支持向量机中的概念,其中间隔是指超平面划分两类样本之间的最小距离,而间隔理论可被用于解释 AdaBoost 算法在训练误差为 0 的情况下,继续训练可进一步提升模型的泛化性能。
令 x 和 y 代表样例的输入和输出空间,D 是 x · y 上的样例真实分布,而 S=$latex {{ \{ \left( {x\mathop{{}}\nolimits_{{1}},y\mathop{{}}\nolimits_{{1}}} \right) },…,{ \left( {x\mathop{{}}\nolimits_{{m}},y\mathop{{}}\nolimits_{{m}}} \right) }} \}$ 是样例 D 上的抽样,在假设空间 H 中,基分类器 h : x → y 进行加权组合形成的集成分类器 f ∈ C(H),即 H 的凸包。
在 AdaBoost 算法中,集成分类器 f(x) 由一系列基分类器加权投票产生结果,即 $latex {f{ \left( {x} \right) }\text{ }=\text{ }{\mathop{ \sum }\limits_{{i}}{ \alpha \mathop{{}}\nolimits_{{i}}h\mathop{{}}\nolimits_{{i}}{ \left( {x} \right) }}}}$ 。其中 $latex {{\mathop{ \sum }\limits_{{i}}{ \alpha \mathop{{}}\nolimits_{{i}}}}\text{ }=\text{ }1, \alpha \mathop{{}}\nolimits_{{i}}\text{ } \ge \text{ }0}$ ,基于强分类器定义,可以定义如下间隔:
$latex {yf{ \left( {x} \right) }\text{ }=\text{ }{\mathop{ \sum }\limits_{{i:y=h\mathop{{}}\nolimits_{{i}}{ \left( {x} \right) }}}{ \alpha \mathop{{}}\nolimits_{{i}}}}\text{ }-\text{ }{\mathop{ \sum }\limits_{{i:y \neq h\mathop{{}}\nolimits_{{i}}{ \left( {x} \right) }}}{ \alpha \mathop{{}}\nolimits_{{i}}}}}$
即正确投票与错误投票的加权差。