Gemma模型事实性回忆的三阶段电路
近期一项针对Gemma系列语言模型的机制可解释性研究,成功定位其内部事实性知识的三阶段召回回路。该研究利用激活修补技术,在涵盖二十个知识类别的六十组提示词对上展开实验,系统隔离了Gemma-2B与Gemma-12B-IT模型的计算组件。结果表明,无论模型规模如何,事实召回均遵循高度一致的路径:第一阶段为存储期,事实以向量方向编码于残差流中,集中于前十四至二十七层,其因果贡献远超注意力头与多层感知机;第二阶段为路由期,信息通过分布式注意力头从实体位置向预测位置转移,无单一主导神经元;第三阶段为读取期,模型仅需在末端层直接读取已编码信号,无需重新计算。实验同时指出,不同架构间的分词器差异易引发提示词映射偏移与数据集漂移,跨模型比较需预先校验。该成果证实了知识回路在模型缩放过程中的结构稳定性,为模型故障干预与机制优化提供了精确坐标。后续研究将引入路径修补技术并推进跨架构复现,以进一步厘清计算组件间的定向因果联系。
