HyperAI超神经

ギャップ理論はサポートベクターマシンの概念であり、間隔とは 2 種類のサンプル間の最小距離を超平面で割ったものを指します。間隔理論を使用して、AdaBoost アルゴリズムのトレーニングエラーが 0 の場合にトレーニングを継続できることを説明できます。モデルの汎化パフォーマンスをさらに向上させます。

x と y がサンプルの入力空間と出力空間を表し、D が x · y 上のサンプルの真の分布であるとします。 S= ${{ \{ \left( {x\mathop{{}}\nolimits_{{1}},y\mathop{{}}\nolimits_{{1}}} \right) },…,{ \left ({x\mathop{{}}\nolimits_{{m}},y\mathop{{}}\nolimits_{{m}}} \right) }} \}$ はサンプル D のサンプリングです。空間 H では、アンサンブル分類器は基本分類器 h : x → y の重み付けされた組み合わせによって形成されます。 f ∈ C(H)、H の凸包です。

AdaBoost アルゴリズムでは、統合分類子 f(x) は、一連の基本分類子、つまり ${f{ \left( {x} \right) }\text{ }=\text{ } の重み付け投票によって生成されます。 {\mathop { \sum }\limits_{{i}}{ \alpha \mathop{{}}\nolimits_{{i}}h\mathop{{}}\nolimits_{{i}}{ \left( {x } \right ) }}}}$ 。その中には ${{\mathop{ \sum }\limits_{{i}}{ \alpha \mathop{{}}\nolimits_{{i}}}}\text{ }=\text{ }1, \alpha \ mathop {{}}\nolimits_{{i}}\text{ } \ge \text{ }0}$ では、強分類器の定義に基づいて、次の間隔を定義できます。

${yf{ \left( {x} \right) }\text{ }=\text{ }{\mathop{ \sum }\limits_{{i:y=h\mathop{{}}\nolimits_{{i }}{ \left( {x} \right) }}}{ \alpha \mathop{{}}\nolimits_{{i}}}}\text{ }-\text{ }{\mathop{ \sum }\ limits_{{i:y \neq h\mathop{{}}\nolimits_{{i}}{ \left( {x} \right) }}}{ \alpha \mathop{{}}\nolimits_{{i} }}}}$

つまり、正しい投票と間違った投票の間の重み付けされた差です。

参考文献

【1】機械学習における「マージン」

マージン理論

参考文献