洞察人工智能的演化之路:从代码到智慧的跨越
要真正理解人工智能,尤其是大型语言模型,不能只看它“是什么”,更应关注它“如何变成这样”。正如《量子杂志》文章所指出的,尽管像ChatGPT这样的模型已无处不在,但它们的内在机制依然神秘莫测。研究者娜奥米·萨夫拉(Naomi Saphra)认为,当前主流的“可解释性”研究方法存在根本性局限——它往往只在模型训练完成后,对静态结构进行分析,却忽视了训练过程本身的重要性。 萨夫拉是哈佛大学肯普纳研究所的研究员,即将于2026年加入波士顿大学任教。她提出一个颇具启发性的观点:理解AI,应像理解生物进化一样。她引用遗传学家多布赞斯基的名言:“没有进化,生物学的一切都无法理解。”她将其类比为:“没有随机梯度下降(SGD),AI的一切都无法理解。”SGD是训练语言模型的核心算法,通过成万亿次微小调整,让模型逐步学会生成连贯文本。而萨夫拉的研究重点正是这些训练过程中的动态变化。 她主张,不应只分析训练结束后的模型状态,而应追踪模型从随机初始化到最终形态的整个演化路径。例如,通过对比多次不同初始化的训练过程,她发现某些内部结构与模型泛化能力之间存在强相关性。这种“演化视角”能让我们更准确地判断哪些特征是真正关键的,而非偶然出现的“遗迹”。 她的研究路径也深受个人经历影响。在攻读博士期间,她因神经系统疾病失去书写和打字能力,被迫改用语音输入编程。这一限制反而让她避开热门赛道,转向当时鲜有人关注的“模型训练动态”领域,最终开辟出独特而深刻的研究方向。 与主流研究不同,萨夫拉不仅关注“模型如何工作”,更追问“为何如此工作”。她指出,许多研究发现某个神经元在输出法语时激活,就断定它“负责”法语生成,但这可能只是表象。实际上,某些高度特异的神经元可能并非必要,甚至会拖累模型性能。这就像进化中的“退化器官”——看似重要,实则无用。 她强调,真正的可解释性必须建立在因果关系之上。仅在训练结束后“编辑”神经元激活值,难以判断其真实作用,因为神经元之间存在复杂耦合。而通过观察训练过程,若某结构与某功能几乎同步出现,就更有理由认为二者存在因果联系。 最终,萨夫拉认为,可解释性研究的核心在于语言的精确性:我们使用的每一个术语,都必须清晰、可定义、可验证。只有这样,AI的理解才能真正深入,而不仅是表面的“观察”。
