17 天前

基于核流的神经网络内部层的深度正则化与直接训练

Gene Ryan Yoo, Houman Owhadi

摘要

我们提出一种基于核流（Kernel Flows, KFs）的新正则化方法，用于人工神经网络（Artificial Neural Networks, ANNs）。核流方法最初被提出用于回归或克里金插值（kriging）中的核函数选择，其核心思想是通过最小化将数据集随机批次中插值点数量减半所导致的精度损失来优化核函数。对于神经网络的函数表示形式，记为$$f_\theta(x) = \left(f^{(n)}{\theta_n} \circ f^{(n-1)}{\theta_{n-1}} \circ \cdots \circ f^{(1)}{\theta_1}\right)(x),$$其中各隐层输出$$h^{(i)}(x) = \left(f^{(i)}{\theta_i} \circ f^{(i-1)}{\theta{i-1}} \circ \cdots \circ f^{(1)}_{\theta_1}\right)(x)$$构成了一组层次化的特征映射，进而定义出相应的核函数：$$k^{(i)}(x, x') = \exp\left(-\gamma_i \|h^{(i)}(x) - h^{(i)}(x')\|_2^2\right).$$将这些核函数与数据集的一个批次结合，即可计算出对应的核流损失 $ e_2^{(i)} $，即使用该批次中随机一半样本预测另一半样本时产生的 $ L^2 $ 回归误差，该误差依赖于前 $ i $ 个隐层的参数 $ \theta_1, \ldots, \theta_i $ 以及核参数 $ \gamma_i $。本文提出的正则化方法，仅需将其中部分核流损失与传统的输出损失进行加权聚合，即可实现有效的正则化。我们在卷积神经网络（CNNs）和宽残差网络（WRNs）上对该方法进行了测试，未对网络结构或输出分类器进行任何修改。实验结果表明，该方法显著降低了测试误差，缩小了泛化差距，并增强了模型对分布偏移（distribution shift）的鲁棒性，同时计算复杂度并未显著增加。我们推测，这些性能提升可能源于以下机制：传统训练过程仅利用了由数据集定义的经验分布的线性泛函（即广义矩），在过度参数化条件下容易陷入神经正切核（Neural Tangent Kernel, NTK） regime，导致模型学习能力受限；而本文提出的损失函数是一种经验分布的非线性泛函，能够有效引导卷积神经网络所隐含的核函数在训练过程中超越简单的数据拟合，从而实现更优的泛化能力与稳定性。