Command Palette

Search for a command to run...

1 个月前

龙之幼崽:Transformer与大脑模型之间的缺失环节

Adrian Kosowski Przemysław Uznański Jan Chorowski Zuzanna Stamirowska Michał Bartoszkiewicz

龙之幼崽:Transformer与大脑模型之间的缺失环节

摘要

计算系统与大脑之间的关系,自冯·诺依曼(John von Neumann)和图灵(Alan Turing)以来,一直是开创性理论学家的重要灵感来源。统一的、无尺度的生物网络(如大脑)具有强大的特性,例如随时间不断泛化的能力——而这正是当前机器学习迈向通用推理模型过程中面临的主要障碍。我们提出“龙雏”(Dragon Hatchling,简称BDH),一种基于无尺度生物启发神经元粒子局部相互作用网络的新型大语言模型架构。BDH在保持类Transformer性能的同时,兼具坚实的理论基础和内在可解释性。BDH是一种实用且性能先进的基于注意力机制的状态空间序列学习架构,属于当前最前沿的技术水平。除作为图模型外,BDH还具备适合GPU高效计算的数学表达形式。其性能遵循类Transformer的缩放规律:在相同参数量(1000万至10亿)和相同训练数据条件下,BDH在语言理解和翻译任务上的表现可与GPT-2相媲美。BDH可被建模为一种大脑结构。在推理过程中,BDH的工作记忆完全依赖于突触可塑性,采用赫布学习(Hebbian learning)机制的脉冲神经元实现。我们通过实证发现,当BDH处理语言输入并感知或推理某一特定概念时,某些特定的单个突触会随之增强连接。BDH的神经元交互网络具有高度模块化特征,且节点度分布呈现重尾特性。该模型在生物学上具有合理性,可解释人类神经元实现语言能力的一种可能机制。BDH的设计核心在于可解释性。BDH的激活向量具有稀疏且非负的特性。我们在语言任务中验证了BDH的单义性(monosemanticity)。更重要的是,BDH架构本身天然具备对“状态”层面的可解释性——这超越了传统上对神经元或模型参数的可解释性范畴,是其固有的核心特性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供