HyperAI

1 个月前

最新研究揭示了一个有趣的“趋同进化”现象：尽管训练方式和数据源不同，各类语言模型在学习数字表示时却发展出了相似的数学特征。该研究由 arXiv 论文 arXiv:2604.20817 发布，涉及人工智能与机器学习领域。研究发现，在自然语言文本上训练的语言模型（包括 Transformer、线性循环神经网络、LSTM 及传统词嵌入）普遍会学习到具有周期性特征的数字表示，其主导周期集中在 2、5 和 10。这意味着在频域分析中，这些模型的特征都会出现周期性的尖峰。然而，研究团队进一步指出，并非所有模型都能利用这些特征进行有效的线性分类。只有部分模型能够学习出具有几何可分性的特征，从而准确判断一个数字对特定周期取模后的结果。论文通过数学证明解释了这一差异：频域稀疏性是必要的，但不足以单独保证几何可分性。研究人员通过大量实验分析了哪些因素能促进几何可分特征的习得，发现数据内容、模型架构、优化器以及分词器都扮演了关键角色。具体而言，研究确定了两种获取几何可分特征的途径：一是从通用语言数据中的互补共现信号中学习，包括文本与数字的共现以及数字之间的交叉交互；二是通过多 token 加法问题（而非单 token 问题）的学习获得。这一发现表明，虽然不同模型的训练路径各异，但它们最终都可能进化出相似的内部数字处理方式。这项成果不仅加深了学界对大模型内部运作机制的理解，也为未来设计更高效的数字处理能力模型提供了重要理论依据。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

Command Palette

不同大模型展现相似数字表示的趋同进化现象

相关链接

Command Palette

不同大模型展现相似数字表示的趋同进化现象

相关链接

Command Palette

不同大模型展现相似数字表示的趋同进化现象

相关链接

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法