9 天前

多项式、三角函数和热带激活函数

Ismail Khalfaoui-Hassani, Stefan Kesselheim
多项式、三角函数和热带激活函数
摘要

在深度神经网络中,哪些函数可作为激活函数?本文探讨了基于正交基函数族的激活函数,包括埃尔米特多项式基、傅里叶三角函数基,以及由多项式基经“热带化”(tropicalization)变换所得的基函数。研究结果表明,通过简单的方差保持初始化(variance-preserving initialization),且无需额外的截断(clamping)机制,这些激活函数能够成功用于训练深层模型,例如在OpenWebText数据集上进行下一个词预测的GPT-2模型,以及在ImageNet数据集上进行图像分类的ConvNeXt模型。本研究有效缓解了多项式激活函数中常见的激活值与梯度爆炸或消失问题,为提升大规模学习任务的训练效率开辟了新路径。此外,该方法为理解神经网络的内在结构提供了新视角,揭示出使用多项式激活的网络本质上可被解释为多变量多项式映射。最后,通过埃尔米特插值(Hermite interpolation),我们证明了所提出的激活函数能够通过同时匹配函数值及其导数,精确逼近预训练模型中的经典激活形式,因而特别适用于微调(fine-tuning)任务。相关激活函数已集成于开源库 torchortho 中,可通过以下链接获取:https://github.com/K-H-Ismail/torchortho。