Back to Headlines

几何与物理视角下的深度神经网络特征学习揭秘

3 天前

研究人员首次将几何与物理学原理应用于深度神经网络(DNN)的特征学习过程,提出了一种基于“弹簧-滑块链”模型的理论框架,揭示了DNN在训练中如何逐层分离数据特征。该研究由巴塞尔大学与中科院科学技术大学团队合作完成,相关成果发表于《物理评论快报》。 研究团队发现,DNN在训练过程中,每一层都会逐步简化输入数据,使不同类别(如猫与狗)的特征表示在空间中变得越来越分离,这种现象被称为“数据分离规律”——即每一层对数据分离的贡献大致相同。这一规律在常见超参数设置下成立,但在不同参数组合下则失效。 为理解其背后机制,研究人员受到地质物理中“弹簧-滑块模型”的启发,该模型常用于模拟断层运动与地震现象。他们发现,DNN的特征学习过程与弹簧-滑块系统极为相似:每一层对应一个滑块,弹簧代表数据变换的线性部分,摩擦力则对应网络中的非线性激活函数。当系统受到“训练损失”驱动时,滑块会逐层分离,正如DNN中数据特征被逐步提取。 研究还发现,增加训练噪声或“振动”系统,会使滑块短暂脱离摩擦面,从而“润滑”系统,使各层分离趋于均衡——这与工程中的“声学润滑”和地质中的“粘滑现象”类似。这一机制解释了为何适当噪声有助于提升模型泛化能力。 该理论模型简洁而有效,仅用少数参数即可模拟复杂DNN的行为。研究者利用该模型成功预测了DNN在训练过程中的数据分离曲线,其形状可反映模型在未见数据上的表现。更重要的是,通过调节噪声与非线性程度,可主动控制分离曲线形态,为加速大规模模型训练提供新思路。 研究团队表示,这一理论不仅借助人类对机械系统的直观理解,揭示了DNN深层运作机制,还可能发展为诊断工具:通过分析网络内部“负载分布”,识别过载或冗余层,从而发现过拟合或无效结构,类似工程中应力分析用于结构安全评估。 未来,研究团队计划进一步探索该模型的微观基础,并将其应用于大型语言模型等Transformer架构的训练优化,目标是建立一种低成本、可操作的泛化能力评估与调控方法,为AI训练提供超越传统“扩展定律”的新路径。

Related Links