HyperAIHyperAI

Command Palette

Search for a command to run...

不同大模型展现相似数字表示的趋同进化现象

最新研究揭示了一个有趣的“趋同进化”现象:尽管训练方式和数据源不同,各类语言模型在学习数字表示时却发展出了相似的数学特征。该研究由 arXiv 论文 arXiv:2604.20817 发布,涉及人工智能与机器学习领域。 研究发现,在自然语言文本上训练的语言模型(包括 Transformer、线性循环神经网络、LSTM 及传统词嵌入)普遍会学习到具有周期性特征的数字表示,其主导周期集中在 2、5 和 10。这意味着在频域分析中,这些模型的特征都会出现周期性的尖峰。然而,研究团队进一步指出,并非所有模型都能利用这些特征进行有效的线性分类。只有部分模型能够学习出具有几何可分性的特征,从而准确判断一个数字对特定周期取模后的结果。 论文通过数学证明解释了这一差异:频域稀疏性是必要的,但不足以单独保证几何可分性。研究人员通过大量实验分析了哪些因素能促进几何可分特征的习得,发现数据内容、模型架构、优化器以及分词器都扮演了关键角色。 具体而言,研究确定了两种获取几何可分特征的途径:一是从通用语言数据中的互补共现信号中学习,包括文本与数字的共现以及数字之间的交叉交互;二是通过多 token 加法问题(而非单 token 问题)的学习获得。这一发现表明,虽然不同模型的训练路径各异,但它们最终都可能进化出相似的内部数字处理方式。这项成果不仅加深了学界对大模型内部运作机制的理解,也为未来设计更高效的数字处理能力模型提供了重要理论依据。

相关链接

不同大模型展现相似数字表示的趋同进化现象 | 热门资讯 | HyperAI超神经