17日前

カーネルフローを用いたニューラルネットワークの内部層のディープ正則化および直接学習

Gene Ryan Yoo, Houman Owhadi

要約

我々は、カーネルフロー（Kernel Flows: KFs）に基づく、人工ニューラルネットワーク（ANNs）向けの新しい正則化手法を提案する。KFsは、データセットのランダムなバッチにおいて補間点の数を半分にした際に生じる精度損失を最小化することを目的として、回帰／クリギングにおけるカーネル選択手法として導入された。ANNの構成的構造を関数形式で表す際、$f_θ(x) = \big(f^{(n)}{θ_n}\circ f^{(n-1)}{θ_{n-1}} \circ \dots \circ f^{(1)}{θ_1}\big)(x)$ とし、各隠れ層の出力 $h^{(i)}(x) = \big(f^{(i)}{θ_i}\circ f^{(i-1)}{θ{i-1}} \circ \dots \circ f^{(1)}_{θ_1}\big)(x)$ は特徴マップおよびカーネル $k^{(i)}(x,x')=\exp(- γ_i \|h^{(i)}(x)-h^{(i)}(x')\|_2^2)$ の階層を定義する。このカーネルをデータバッチと組み合わせることで、各層のパラメータ $θ_1,\ldots,θ_i$（および $γ_i$）に依存するKF損失 $e_2^{(i)}$（ランダムに選ばれたバッチの半分を用いて残りの半分を予測する際の$L^2$回帰誤差）が得られる。本手法は、これらのKF損失の一部を古典的な出力損失と組み合わせるという単純なアプローチに基づいている。この手法は、構造や出力分類器を変更せずにCNNおよびWRNに対して評価され、テスト誤差の低減、一般化ギャップの縮小、分布シフトに対するロバスト性の向上が確認された一方で、計算複雑度の著しい増加は見られなかった。これらの成果は、従来の学習法がデータセットによって定義される経験的分布の線形関数（一般化モーメント）のみを用いるため、過パラメータ化下ではニューラル接線カーネル（Neural Tangent Kernel: NTK）領域に陥りやすいのに対し、本手法で定義される損失関数は経験的分布の非線形関数として定義されており、CNNが定める基礎的なカーネルを、単にデータの回帰に用いるにとどまらず、より効果的に学習可能であるという点に起因していると考えられる。