OpenAI稀疏模型揭开大模型黑箱之谜,首次实现内部推理全过程可视化
OpenAI最新实验性模型突破大模型“黑箱”困境,首次实现对模型内部推理过程的清晰追踪。该模型名为权重稀疏Transformer,虽性能仅相当于2018年的GPT-1,远不及GPT-5或Claude等主流大模型,但其最大价值在于具备前所未有的可解释性。 当前主流大模型依赖稠密神经网络结构,数十亿参数相互连接,知识被分散嵌入复杂网络中,导致模型推理过程难以追踪。即便模型输出准确,人类也无法理解其为何如此判断,更无法预测其何时产生幻觉或错误。这种“不可解释性”在医疗、司法、教育等关键领域尤为危险。 为破解这一难题,OpenAI转向“机制可解释性”研究,设计出权重稀疏Transformer。该模型在结构上接近GPT-2,但强制绝大多数权重为零,使每个神经元仅与少数其他神经元连接,从而实现特征局部化与功能分离。 实验中,研究人员让模型判断Python代码中字符串应使用单引号还是双引号闭合。在传统稠密模型中,这一过程难以追踪;但在稀疏模型中,团队清晰观察到完整推理链:开头引号类型被编码至特定通道,MLP模块提取“引号类型”信息,注意力机制跳过中间token,精准定位起始位置,并复制对应引号作为输出。 对于更复杂的变量绑定任务,模型虽无法完全还原全部路径,但仍能识别关键机制——例如某个注意力头负责复制变量名,另一个负责传递类型信息。这些“可识别电路”已具备预测模型行为的能力。 尽管该技术目前难以扩展至GPT-3或更大模型,且性能受限,但OpenAI团队相信,未来有望构建出兼具高透明度与高性能的模型。“也许几年内,我们就能拥有一个完全可解释的GPT-3,你能走进它的每一个部分,理解它如何完成任务。”研究科学家Leo Gao表示。 尽管波士顿学院数学家Elisenda Grigsby等学者对此持保留态度,认为大规模模型的复杂性可能难以完全解析,但这一实验标志着AI可解释性研究迈出关键一步。
