KAN: Kolmogorov-Arnold Networks 论文提出了一种有前景的多层感知器 (MLP) 的替代方案,称为 Kolmogorov-Arnold Networks (KAN) 。 KAN 名字的由来,是为了纪念两位伟大的已故数学家 Andrey Kolmogorov 和 Vladimir Arnold 。 MLP 的设计灵感来源于通用近似定理,而 KAN 的设计灵感则来源于 Kolmogorov-Arnold 表示定理。
Kolmogorov-Arnold 网络是一种新型神经网络,它采用与 MLP 根本不同的学习方法。 MLP 在节点(或 “神经元”)上具有固定的激活函数,而 KAN 在边缘(或 “权重”)上具有可学习的激活函数。这种看似简单的变化对网络的性能和可解释性产生了深远的影响。
在 KAN 中,每个权重参数都被单变量函数替换,通常参数化为样条函数。因此,KAN 根本没有线性权重。 KAN 中的节点只是简单地对输入信号求和,而不应用任何非线性。
KAN 的核心是学习给定问题的组合结构(外部自由度)和单变量函数(内部自由度)。这使得 KAN 不仅可以像 MLP 一样学习特征,还可以非常准确地优化这些学习到的特征。
KAN 利用了样条曲线和 MLP 的优点,同时避免了它们的缺点。样条对于低维函数来说是准确的,并且可以轻松地进行局部调整,但会受到维数灾难的影响。另一方面,MLP 更擅长利用组合结构,但难以优化单变量函数。通过结合这两种方法,KAN 可以比单独的样条曲线或 MLP 更有效地学习和准确地表示复杂函数。
柯尔莫哥洛夫-阿诺德网络的引入有两个影响意义:
将 KAN 集成到大语言模型中可能会使生成式人工智能有重大进步,在效率、可解释性、小样本学习、知识表示和多模态学习方面可能超越现有的神经网络架构。
【1】KAN: Kolmogorov–Arnold Networks
【2】What is the new Neural Network Architecture?(KAN) Kolmogorov-Arnold Networks Explained