HyperAI超神经

10 月 17 日，由清华大学科协星火论坛联合清华大学类脑计算研究中心以及 HyperAI 超神经，举办的「从 AlphaGo 到类脑天机芯片，人工智能走向何处」，在清华大学蒙民伟楼圆满举行。在开场的圆桌论坛环节，清华首位类脑博士邓磊细数自己与类脑结缘的历程，从多个角度对类脑计算进行解读，为各位同学答疑解惑，让我们对类脑计算以及人工智能的发展，有了新的认识。

邓磊，清华首位类脑计算博士、美国加州大学圣芭芭拉分校博士后。 8 月 1 日《Nature》杂志的封面上，展示了文章《面向人工通用智能的异构天机芯片架构》，他作为第一作者，负责了芯片的设计和算法细节。

该论文实现了中国在芯片及 AI 领域《自然》论文零的突破，左边为论文第一作者邓磊

上周四，由清华大学科协星火论坛联合清华大学类脑计算研究中心，以及 HyperAI 超神经，举办了「从 AlphaGo 到类脑天机芯片，人工智能走向何处」的主题论坛。邓磊作为特邀嘉宾受邀出席，以圆桌论坛的形式分享了自己的一些观点。本文将跟随论坛上的问题，回顾他在 AI 和类脑计算领域的一些洞见。

学并探索着：类脑计算中心的第一个博士

提问：您是怎么进入到类脑计算这个研究方向的？这个学科具体涉及到哪些内容？当年读类脑计算博士的时候，类脑计算还未普及，当时还搜索了一下，并没有查到太多有效信息，之后还特意询问了导师……

作为类脑计算研究中心的第一个博士，我见证了类脑中心从零开始走到现在。包括后来的开公司、做研究。 2017 年之后，我毕业去了美国，之后转到偏计算机的方向。现在有 50% 是做理论， 50% 是做芯片。

我本科是做机械的，后来发现做机械没有太多天赋，就慢慢转到做仪器，后来还去做过机器人，研究过一些材料和微电，之后开始做 AI 的一些算法、理论，最后才到芯片，慢慢进入到类脑计算。一路上不断走不断学，大概是这样一个过程。

注：清华大学类脑计算研究中心，于 2014 年 9 月创立，涉及基础理论、类脑芯片、软件、系统和应用等多个层面。此中心由清华大学校内 7 家院系所联合而成，融合了脑科学、电子、微电子、计算机、自动化、材料以及精密仪器等学科。

类脑计算的研究涉及到了多学科交叉融合。源头肯定还是医学（脑科学），现在的人工智能最初脱胎于心理学和医学，它们为模型提供了一些依据。

接下来的就是机器学习，以后它们肯定还是会走到一起，但现在分开来讲，是因为机器学习有更多做产品的经验，通常是从应用的角度来进行思考。

此外还有计算机科学，现在有 GPU 解决不了的问题，所以阿里华为都开始做自己的专用芯片，对计算架构方向的学生，也可以考虑往这个方向发展。

再往下就是芯片等硬件，这涉及到微电子甚至材料，因为要提供一些新的器件，现在还是用的一些很基础存储单元，但未来肯定会有一些新的器件，比如说碳纳米管、石墨烯等材料能不能应用进来。

另外还有自动化方向，很多做机器学习的人，通常是计算机系和自动化系的，因为自动化是做控制做优化，这和机器学习有异曲同工的地方。在类脑计算中，这些学科很好的融合在了一起。

作为清华类脑计算研究中心的第一位博士博士在读期间，他发表了 9 篇学术论文，申请了 22 项专利

提问：当时是有什么样的驱动，或者说什么样的契机，最终选择了这个方向?

用一句话来说，这个方向最大的魅力在于它做不完。

我曾经想过一个哲学悖论，研究类脑计算跟人脑分不开，但用人脑来思考人脑，并不知道会达到什么程度，对它的研究也就永无止尽。因为人类对自己的思考，是永远会存在的，总是会经历高潮，然后进入平淡期，突然又出现了突破，它永远不会停止。这个角度去看是很值得研究的。

提问：您目前所在的博士后阶段，研究上有哪些不同？

以前在清华做芯片，更多的是从实用的角度，想的是我能做一个设备，或者一个仪器出来。但是去美国后，更多的是从学科的角度来考虑这个事情，就像计算专业的计算架构，就像 ACM 很多图灵奖，都是从来这方面来看待问题，虽然做同样的事情，思考的角度就不一样了。

如果从计算架构的角度来看，任何一个芯片无非就是计算单元、存储单元、通信就这三个方面，不管怎么做，都是这三个事情的范畴。

天机芯和类脑计算：自行车不是重点

提问：Nature 的这篇文章，是一个里程碑的事件。在过去的几十年中，您认为的里程碑事件有哪些？在类脑计算领域，又有哪些事件推动了行业的发展？

类脑计算这个领域相对复杂，我从人工智能的脉络来梳理，会更明显一些。人工智能不是单一的学科，基本上可以分为四个方向。

第一个是算法方面，第二个是数据，第三个是算力，最后是编程工具。里程碑的事件可以从这四个方向来看。

就算法来讲，当然是深度神经网络，这个是毋庸置疑的；从数据的角度来说，ImagNet 是一个里程碑，之前没有大数据的加持，深度神经网络几乎被埋没。在算力的角度，GPU 是一个很伟大的诞生。编程的工具，像 Google 的 TensorFlow 之类普及的应用，是推动发展的一个重要因素。

这些事情促进了 AI 的前进，而且它们是一个迭代发展的过程，缺了一个都不会有今天的局面。但 AI 也有自己的局限性，比如 AlphaGo ，它只能进行单任务，除了下棋别的就做不好。这跟大脑是不一样的。

第二个就是可解释性，我们用深度神经网去进行拟合，包括用增加强化学习，但它们内部发生了什么事情，还是不清楚的，一些人正在试图将这个过程可视化或弄清楚它的原理。

第三个是鲁棒性， AI 不像人一样稳定。比如自动驾驶，现在的 AI 也只是被用于辅助驾驶，是因为它还不能保证绝对的安全。因为这些缺点，必须要去关注脑科学的发展，引入更多的脑科学的机制。在我看来，最迫切的就是让智能更通用化。

至于里程碑的事件，AlphaGo 算得上一个。因为它把 AI 抬到公众的视野中，让所有人去关注 AI，而且强化学习也是在之后才火起来的。从芯片的角度来说，有侧重算法和受生物脑启发两类芯片，在这两类芯片的发展中，分别有两个里程碑。

第一类是机器学习方面，现在深度神经网络都是在 GPU 上计算，但 GPU 不是最高效的，有一批公司像寒武纪，在寻找替代 GPU 的方案，这是一个重要的事件。
另一类不局限于机器学习，是从大脑的角度找模型做专用的芯片，这方面 IBM 或者英特尔做的比较好。

天机芯片之所以很受关注，就在于将这两类各自的优势，集成到了一个架构上去。

提问：你们团队发布了天机芯在自行车上的测试，能具体介绍一下这方面吗？

在网上大家都被自行车所吸引，但我们团队都知道，自行车不是我们的重点，它只是一个 Demo 的平台，因为当时我们在想，要找一个好的平台去给大家展示。

自行车的演示中，有视觉、听觉还有运动控制，通过一个芯片去完成这些功能，是一个比较理想的平台。当时是从这个角度去考虑的，自行车控制并不是很难，我们只是想展示一种新的模式。

类脑计算的未来：打破冯诺依曼架构

提问：未来的人工智能或者类脑计算，和现有的冯诺依曼架构有什么联系？它们是否会朝着人脑的形态演变？

这是一个很重要的问题，现在的半导体行业，就有一个基本的趋势，包括 18 年的图灵奖，也是颁给了做计算架构研究的研究者。试图让 GPU 提高性能，有两个方向，第一是把晶体管做小，就是物理微缩，遵循摩尔定律。但这两年大家意识到摩尔定律开始失效了，相关的发展越来越慢，总有一天会无法做小了。

另一个方向就是做计算架构，设法通过设计框架，让计算单元、存储单元、通信，这个三部分都发挥很高的效率。人脑就很神奇，通过学习的积累，每一代人知识都在增长，我们要去借鉴这种知识的演化。

上个世纪，通用处理器的发展基本上遵循摩尔定律，因为以前晶体管能越做越小，计算架构的发展被一定程度埋没。现在摩尔定律受阻以及 AI 这类需要追求高处理效率的应用，使得计算架构的研究又重新受到重视，未来十年也将是专用处理器的黄金时期。

对于类脑研究，大家问得最多的问题是，类脑计算能干什么？

这是一个很致命的问题，现在很多做人工智能或做脑科学的人，都不清楚其背后的机理是什么。就拿脑科学来说，有三个层次目前还比较脱节。

第一个是神经细胞究竟如何工作。这个问题，很多医学家或者生物学家，都还在进行艰难的探索研究。

第二个是神经细胞之间是怎么连接的，大脑里面有 10 的 11 次方量级的神经细胞，它们是如何联系起来的，也比较难理清楚，需要借助光学和物理学的力量。

最后，还要知道它们怎么学习的，这也是最难但最重要的一个问题。

每一个方面都有一个鸿沟，但困难不能成为放弃探索的理由。如果毫不作为，就一点机会都没有。在每个层面上做一些事情，最后总是会诞生一些新的东西，而后不断地进行迭代。

如果要等到脑科学搞清楚了再去进行，那就晚了，别人肯定就超前了。

比如做 CPU 这件事情，就不像大家想的那么简单，不是说中国人不聪明，发动机也是一样，原理大家都懂，但是要想做好却不容易，工程难度和技术积累非一日之功。

其中一个原因在于，许多东西都有很大的产业链，如果最开始没有去做，就失去了很多试错的机会。 这个领域不会实现快速的突破，只能去脚踏实地进行。至于以后，现在的人工智能、强人工智能，人工智能 2.0 和类脑计算，我觉得它们最后都会殊途同归，因为他们都源于大脑，只是导向不同而已。

提问：前段时间在 Nature 上还有另外一篇文章，研究人员画出了线虫全部神经元的完整图谱，以及全部神经元之间所有的 7000 个连接。

提问：这个工作和类脑研究有没有联系？能不能用现有技术，或者冯诺依曼的 CPU 去模拟线虫这个工作，另外接下来 3 到 5 年，我们可以期待什么样的事情发生？

我看过那个线虫结构的研究，它对类脑研究有很大的影响。其实现在的 AI 模型，不管是类脑计算，还是人工智能，它的连接结构大多还是脱胎于现在的层级深度神经网络，实际上是十分粗浅的。

我们大脑不是一个简单的层状网络，大脑更像一个图。而且各个脑区之间的联系，是很复杂的。这个研究的意义，在于让我们思考是否能借鉴这种连接方式。

之前有一个观点，是说在神经网络的结构中，连接结构的作用实际上大于每一个连接的具体权值，也就是连接的意义是大于每一个参数的意义。

卷积神经网络为什么能够比以前的神经网络要厉害一些，就在于它的连接结构不同，所以它提取特征的能力就会强一些，这也说明连接结构会导致结果的变化。

能不能在传统的处理器上去做到这个成果，其实是有点困难的。冯诺依曼架构里面最典型的是，需要一个很明确的存储单元，一个很明确的计算单元。

但我们大脑里面没有那么明确的界限，虽然我们有海马体专门负责长期记忆，但从神经元网络层面来讲你并不清楚大脑哪一团细胞一定就是存储，哪些只是计算。

大脑更像是一个混沌的网络，计算和存储难以区分，所以从这个角度上来讲的话，很难用以前传统的那些芯片或者处理器的技术来做。

所以我们必须要开发一些新的非冯诺依曼的方法，用新的架构方式支持，去做类脑方式的研究。

比如 2018 的图灵奖，就宣告专用领域的芯片会越来越火。英伟达现在推广的，就是异构架构，在一个平台里面有各种各样的小的芯片 IP 核，可能这个就类似人的脑区一样。

所以，现在不再像从前用一个 CPU 解决所有的事情，也没有一个芯片能够高效解决所有的事情。未来会逐渐走向各种高效专用的发展技术，这是目前的一个趋势。

现在大家对脑科学或者类脑计算的理解，没有人工智能那么透彻，有一个很重要的原因，是投资者以及产业界，还没有过多的介入。因此，不管是数据算力还是工具，都难以做起来。类脑计算就处于一个这样的初级阶段，相信以后当越来越多的大学和公司投入进来，就会明朗很多。

提问：类脑芯片的架构，和传统的冯诺依曼架构有哪些方面的不同？

将类脑芯片进行拆分，可以分为类脑和计算。在类脑的角度上，它不是仅有 AI 里面的深度神经网络，还结合了一些脑科学的计算。

从架构方面，冯诺依曼体系中有一个瓶颈，整个半导体行业的架构其实都在面临这个难题：存储的容量越来越大，它速度就越来越慢，如果想扩大规模又想高速，就不可能实现。基本上做设计架构的人，多是在研究优化存储层级，怎么样让它变快。

天机和其他架构不一样，没有用到那些需要扩展的存储器。天机芯片更像一个大脑，相当于细胞连成了很多小回路，小回路又扩展成了很多网络，最后构成功能区和系统，它是一个容易扩展的结构，而不是像 GPU 那样。

天机芯的众核去中心化架构决定了，它能比较容易地扩展成大的系统，没有存储墙的约束，实际上是存算融合的非冯诺依曼架构。这是在架构层面和现有处理器最大的一个区别，前面是模型层面的区别，基本上就这两大类的区别。

学并探索着：类脑计算中心的第一个博士

接下来的就是机器学习，以后它们肯定还是会走到一起，但现在分开来讲，是因为机器学习有更多做产品的经验，通常是从应用的角度来进行思考。

此外还有计算机科学，现在有 GPU 解决不了的问题，所以阿里华为都开始做自己的专用芯片，对计算架构方向的学生，也可以考虑往这个方向发展。

提问：当时是有什么样的驱动，或者说什么样的契机，最终选择了这个方向?

用一句话来说，这个方向最大的魅力在于它做不完。

提问：您目前所在的博士后阶段，研究上有哪些不同？

如果从计算架构的角度来看，任何一个芯片无非就是计算单元、存储单元、通信就这三个方面，不管怎么做，都是这三个事情的范畴。

天机芯和类脑计算：自行车不是重点

类脑计算这个领域相对复杂，我从人工智能的脉络来梳理，会更明显一些。人工智能不是单一的学科，基本上可以分为四个方向。

第一个是算法方面，第二个是数据，第三个是算力，最后是编程工具。里程碑的事件可以从这四个方向来看。

天机芯片之所以很受关注，就在于将这两类各自的优势，集成到了一个架构上去。

提问：你们团队发布了天机芯在自行车上的测试，能具体介绍一下这方面吗？

类脑计算的未来：打破冯诺依曼架构

提问：未来的人工智能或者类脑计算，和现有的冯诺依曼架构有什么联系？它们是否会朝着人脑的形态演变？

对于类脑研究，大家问得最多的问题是，类脑计算能干什么？

这是一个很致命的问题，现在很多做人工智能或做脑科学的人，都不清楚其背后的机理是什么。就拿脑科学来说，有三个层次目前还比较脱节。

第一个是神经细胞究竟如何工作。这个问题，很多医学家或者生物学家，都还在进行艰难的探索研究。

最后，还要知道它们怎么学习的，这也是最难但最重要的一个问题。

如果要等到脑科学搞清楚了再去进行，那就晚了，别人肯定就超前了。

提问：前段时间在 Nature 上还有另外一篇文章，研究人员画出了线虫全部神经元的完整图谱，以及全部神经元之间所有的 7000 个连接。

之前有一个观点，是说在神经网络的结构中，连接结构的作用实际上大于每一个连接的具体权值，也就是连接的意义是大于每一个参数的意义。

能不能在传统的处理器上去做到这个成果，其实是有点困难的。冯诺依曼架构里面最典型的是，需要一个很明确的存储单元，一个很明确的计算单元。

大脑更像是一个混沌的网络，计算和存储难以区分，所以从这个角度上来讲的话，很难用以前传统的那些芯片或者处理器的技术来做。

所以我们必须要开发一些新的非冯诺依曼的方法，用新的架构方式支持，去做类脑方式的研究。

提问：类脑芯片的架构，和传统的冯诺依曼架构有哪些方面的不同？

将类脑芯片进行拆分，可以分为类脑和计算。在类脑的角度上，它不是仅有 AI 里面的深度神经网络，还结合了一些脑科学的计算。

学并探索着：类脑计算中心的第一个博士

接下来的就是机器学习，以后它们肯定还是会走到一起，但现在分开来讲，是因为机器学习有更多做产品的经验，通常是从应用的角度来进行思考。

此外还有计算机科学，现在有 GPU 解决不了的问题，所以阿里华为都开始做自己的专用芯片，对计算架构方向的学生，也可以考虑往这个方向发展。

提问：当时是有什么样的驱动，或者说什么样的契机，最终选择了这个方向?

用一句话来说，这个方向最大的魅力在于它做不完。

提问：您目前所在的博士后阶段，研究上有哪些不同？

如果从计算架构的角度来看，任何一个芯片无非就是计算单元、存储单元、通信就这三个方面，不管怎么做，都是这三个事情的范畴。

天机芯和类脑计算：自行车不是重点

类脑计算这个领域相对复杂，我从人工智能的脉络来梳理，会更明显一些。人工智能不是单一的学科，基本上可以分为四个方向。

第一个是算法方面，第二个是数据，第三个是算力，最后是编程工具。里程碑的事件可以从这四个方向来看。

天机芯片之所以很受关注，就在于将这两类各自的优势，集成到了一个架构上去。

提问：你们团队发布了天机芯在自行车上的测试，能具体介绍一下这方面吗？

类脑计算的未来：打破冯诺依曼架构

提问：未来的人工智能或者类脑计算，和现有的冯诺依曼架构有什么联系？它们是否会朝着人脑的形态演变？

对于类脑研究，大家问得最多的问题是，类脑计算能干什么？

这是一个很致命的问题，现在很多做人工智能或做脑科学的人，都不清楚其背后的机理是什么。就拿脑科学来说，有三个层次目前还比较脱节。

第一个是神经细胞究竟如何工作。这个问题，很多医学家或者生物学家，都还在进行艰难的探索研究。

最后，还要知道它们怎么学习的，这也是最难但最重要的一个问题。

如果要等到脑科学搞清楚了再去进行，那就晚了，别人肯定就超前了。

提问：前段时间在 Nature 上还有另外一篇文章，研究人员画出了线虫全部神经元的完整图谱，以及全部神经元之间所有的 7000 个连接。

之前有一个观点，是说在神经网络的结构中，连接结构的作用实际上大于每一个连接的具体权值，也就是连接的意义是大于每一个参数的意义。

能不能在传统的处理器上去做到这个成果，其实是有点困难的。冯诺依曼架构里面最典型的是，需要一个很明确的存储单元，一个很明确的计算单元。

大脑更像是一个混沌的网络，计算和存储难以区分，所以从这个角度上来讲的话，很难用以前传统的那些芯片或者处理器的技术来做。

所以我们必须要开发一些新的非冯诺依曼的方法，用新的架构方式支持，去做类脑方式的研究。

提问：类脑芯片的架构，和传统的冯诺依曼架构有哪些方面的不同？

将类脑芯片进行拆分，可以分为类脑和计算。在类脑的角度上，它不是仅有 AI 里面的深度神经网络，还结合了一些脑科学的计算。

Command Palette

和 Nature 封面论文一作，聊了聊天机芯的科研故事

学并探索着：类脑计算中心的第一个博士

天机芯和类脑计算：自行车不是重点

类脑计算的未来：打破冯诺依曼架构

Command Palette

和 Nature 封面论文一作，聊了聊天机芯的科研故事

学并探索着：类脑计算中心的第一个博士

天机芯和类脑计算：自行车不是重点

类脑计算的未来：打破冯诺依曼架构

相关报道

平均 1.8 秒完成预测，MIT 等开发 GPU 功耗估算框架 EnergAIzer，误差约 8%

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

Free CPU 教程丨狂揽 8.8k Stars，tts 模型 Supertonic-3 参数规模仅约 99M，支持 31 种语言

速度提升 252 倍，斯坦福/UCLA 等用 LSTM 将二阶非线性光学仿真带入毫秒级时代

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

AI 驱动从头设计多样化小分子结合蛋白，韩国团队发现能选择性识别压力激素的蛋白质

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

实现 1.4—3.7 倍推理加速，MIT 提出 DRiffusion 破解扩散模型采样延迟瓶颈

Command Palette

和 Nature 封面论文一作，聊了聊天机芯的科研故事

学并探索着：类脑计算中心的第一个博士

天机芯和类脑计算：自行车不是重点

类脑计算的未来：打破冯诺依曼架构

相关报道

平均 1.8 秒完成预测，MIT 等开发 GPU 功耗估算框架 EnergAIzer，误差约 8%

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

Free CPU 教程丨狂揽 8.8k Stars，tts 模型 Supertonic-3 参数规模仅约 99M，支持 31 种语言

速度提升 252 倍，斯坦福/UCLA 等用 LSTM 将二阶非线性光学仿真带入毫秒级时代

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

AI 驱动从头设计多样化小分子结合蛋白，韩国团队发现能选择性识别压力激素的蛋白质

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

实现 1.4—3.7 倍推理加速，MIT 提出 DRiffusion 破解扩散模型采样延迟瓶颈

相关报道

平均 1.8 秒完成预测，MIT 等开发 GPU 功耗估算框架 EnergAIzer，误差约 8%

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

Free CPU 教程丨狂揽 8.8k Stars，tts 模型 Supertonic-3 参数规模仅约 99M，支持 31 种语言

速度提升 252 倍，斯坦福/UCLA 等用 LSTM 将二阶非线性光学仿真带入毫秒级时代

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

AI 驱动从头设计多样化小分子结合蛋白，韩国团队发现能选择性识别压力激素的蛋白质

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

实现 1.4—3.7 倍推理加速，MIT 提出 DRiffusion 破解扩散模型采样延迟瓶颈

相关报道

平均 1.8 秒完成预测，MIT 等开发 GPU 功耗估算框架 EnergAIzer，误差约 8%

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

Free CPU 教程丨狂揽 8.8k Stars，tts 模型 Supertonic-3 参数规模仅约 99M，支持 31 种语言

速度提升 252 倍，斯坦福/UCLA 等用 LSTM 将二阶非线性光学仿真带入毫秒级时代

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

AI 驱动从头设计多样化小分子结合蛋白，韩国团队发现能选择性识别压力激素的蛋白质

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

实现 1.4—3.7 倍推理加速，MIT 提出 DRiffusion 破解扩散模型采样延迟瓶颈