AI蒸馏技术:如何让模型更小、更高效且成本更低
中国的人工智能公司DeepSeek在今年早些时候发布了一款名为R1的聊天机器人,引起了广泛关注。这家不知名的小公司声称其聊天机器人的性能能够与全球最著名的人工智能公司匹敌,但使用的计算资源和成本仅为后者的一小部分。这种声明引发了一系列猜测,特别是关于DeepSeek是否未经授权使用了OpenAI的专属模型o1的技术,即知识蒸馏(distillation)。此消息一出,许多西方科技公司的股价大幅下跌,其中GPU巨头Nvidia在一天内损失的市值超过了历史上任何一家公司的单日跌幅。 知识蒸馏其实并不是一项新技术。它最早可以追溯到2015年,当时谷歌的研究人员杰弗里·辛顿(Geoffrey Hinton)、奥里奥尔·温亚尔斯(Oriol Vinyals)等人发表了一篇论文,提出了通过“软目标”训练小型模型的概念。这一方法旨在让大型“教师”模型传递更多的信息给小型“学生”模型,从而使后者能够更有效地学习。“软目标”是指大型模型为每个可能性分配的概率,而不仅仅是确定的答案。例如,一个图像分类模型可能会认为一张图片有30%的可能性是狗,20%的可能性是猫,5%的可能性是牛,0.5%的可能性是汽车。通过这些概率,教师模型可以暗示学生模型哪些类别之间相似,哪些不同,从而加速学习过程。这种方法使得复杂的大模型可以被压缩为较小的模型,而几乎不会牺牲精度。 尽管最初的蒸馏论文没有立即受到重视,甚至被某次会议拒绝,但其理念恰逢其时。在那前后,工程师们发现将更多训练数据输入神经网络可以显著提高模型的性能,模型的规模因此迅速扩大,但运行成本也随之上升。知识蒸馏很快成为解决这一问题的重要工具。2018年,谷歌推出了强大的语言模型BERT,但由于其体积庞大且运行成本高,次年就出现了更小版本的DistilBERT。此后,知识蒸馏逐渐普及,成为Google、OpenAI和Amazon等公司提供的服务之一。 对于DeepSeek是否真的通过非法手段使用了OpenAI的知识蒸馏技术,专家们表示怀疑。知识蒸馏通常需要访问教师模型的内部结构,这意味着无法从像OpenAI的o1这样封闭源代码的模型中秘密获取数据。但通过向教师模型提问并使用其响应来训练自己的模型,学生模型仍然可以从中学到很多东西,这一点有点类似于苏格拉底式的教育方式。 与此同时,研究人员也在探索新的应用领域。加州大学伯克利分校的NovaSky实验室在今年1月展示,知识蒸馏在训练多步骤推理模型方面表现出色,该实验室的完全开源模型Sky-T1只需不到450美元的训练成本,就能达到与较大开源模型相近的结果。诺瓦斯基实验室的学生领导达程李(Dacheng Li)表示:“我们对蒸馏在这一领域取得的成果感到非常惊讶,蒸馏是一项基本的AI技术。” 业内专家普遍认为,知识蒸馏是当前提高模型效率的最重要工具之一。虽然最初受到冷遇,但随着模型规模的不断扩张和运行成本的激增,这项技术逐渐证明了自己的价值。DeepSeek的成果引发了关于人工智能模型构建方式以及市场竞争的新讨论,但知识蒸馏本身的合法性和有效性是毋庸置疑的。