在能源需求增长和「碳中和」目标期限逼近的双重压力下，低碳、甚至是零碳排放的清洁能源应用是大势所趋。近年来，具有零碳排放发电潜力的核聚变得到了更加广泛的关注，越来越多的学者专家开始展开深入研究。

尽管托卡马克 (Tokamak) 的聚变实验取得了显著成功，但障碍仍然存在，其中等离子体中断是 ITER 成功长脉冲运行必须解决的最关键问题之一。主要原因是等离子体极易「撕裂」，并且逃逸出用来约束它的强大磁场，进而造成聚变反应的中断。

在此前的研究中，已经能够实现短暂的聚变能量维持。如今，随着深度强化学习 (DRL) 技术在非线性、高维度驱动问题中显示出的高性能，人们也开始探索将其引入核聚变研究中。不久前，普林斯顿大学的研究人员开发了一个 AI 控制器进行自适应预测和控制，能够提前 300 毫秒预测到等离子体的潜在撕裂风险并及时干预，相关成果已发表于「Nature」。

论文地址：
https://www.nature.com/articles/s41586-024-07024-9
关注公众号，后台回复「核聚变」即可下载完整论文

传统物理方法与 AI 相结合

如下图所示，研究人员将传统的基于物理的方法与先进的 AI 技术整合，改善对等离子体行为的控制和理解。

图 a：诊断系统，展示了本研究中用于监测和分析 DIII-D 托卡马克内等离子体的主要诊断工具。

其中包括了用于测量磁场的磁学设备、用于测量密度和温度分布的汤姆逊散射 (TS) 以及用于测量离子温度和流速的电荷交换复合 (CER) 光谱学。特定的撕裂不稳定性模式 m/n =2/1 在图中用橙色突出显示，彰显其重要性。

图 b：加热、电流驱动和控制执行器，展示了用于加热等离子体、通过等离子体驱动电流和控制其行为的系统。

具体囊括了用于注入粒子束的设备、施加磁场的设备，以及使用微波或射频波进行加热和电流驱动的设备。其中，控制执行器发挥着关键作用，不仅能操纵等离子体以达到期望条件，同时还能对抗像 m/n = 2/1 撕裂模式这样的不稳定情况。

图 c：避免撕裂的控制系统，展示了预防或减轻撕裂不稳定性的控制系统。

在其预处理步骤中，通过轮廓重建 (profile reconstruction) 和平衡拟合 (equilibrium fitting, EFIT) ，将来自诊断系统的信号处理成相同维度和空间分辨率的结构化数据，并输入到深度神经网络 (DNN) 模型中。

图 d：基于深度神经网络的 AI controller，决定整体束流功率和等离子体形状。

一个平衡拟合 (equilibrium fitting, EFIT) 算法处理低级控制任务，调整磁线圈电流和束流功率，从而满足 AI 的控制命令与用户预设的约束条件，例如维持特定的安全系数 (q95) 和束流扭矩。

强化学习算法：防撕裂控制

聚变反应堆中，等离子体的状态如下图所示：

图 a 中的黑线展示了随着外部加热（如中性粒子束）增加等离子体压力时，最终会达到一个稳定性限制。当超过这个限制时，会激发撕裂不稳定性。图 b 和 c 展示了一旦撕裂不稳定性被激发，等离子体将迅速被破坏，在实际操作中会导致严重后果。

基于深度神经网络和强化学习，研究人员开发了能够实时响应等离子体状态变化的智能控制系统，对等离子体未来状态进行预测，并相应调整控制动作，使得托卡马克操作遵循理想路径，在维持高压力的同时避免撕裂不稳定性。

强化学习模型使用一个奖励函数 (reward function) 来实现这一避障问题 (obstacle-avoidance problem) 。用于预测未来撕裂不稳定性的动态模型集成了 OpenAI Gym 库，使其能够作为训练环境与控制器交互。防止撕裂控制器 (tearing-avoidance controller) 通过使用 Keras-RL 实现的深度确定性策略梯度方法进行训练。

强化学习的优势在于能够通过多执行机构（束流和形状）和多目标（低撕裂度和高 βN）控制器进入更高 βN 区域，同时维持可容忍的撕裂度。

DIII-D 中的防撕裂控制：传统 vs. AI

传统反馈控制的局限

尝试通过传统反馈控制方法维持标准化等离子体压力 (βN = 2.3) 。然而在编号 193273 实验中（下图黑线），当时间达到 2.6 秒时，出现了大型的撕裂不稳定性，导致 βN 的不可恢复降解，最终在 3.1 秒时发生了等离子体中断。

AI 控制的优势

在编号 193280 实验中（下图蓝线），采用 AI 控制对束流功率和等离子体三角度进行自适应控制，确保预测的撕裂度不超过 0.5 的阈值。

实验结果显示，通过 AI 控制，成功将估计的撕裂度维持在给定阈值以下。与 193273 实验相比能够实现更低的撕裂度。

不同撕裂阈值下控制策略

研究人员比较了不同撕裂度阈值下的控制策略，实验编号 193277（上图灰线）、 193280（上图蓝线）和 193281（上图红线）分别对应于撕裂度阈值 0.2 、 0.5 和 0.7 的控制实验。

在 k = 0.5 和 k = 0.7 的情况下，等离子体在预定的平顶期结束前表现出良好的稳定性。阈值较高的控制器 (k = 0.7) 在实验的早期阶段 (t < 3.5 s) 倾向于更积极地提高 βN，但这导致等离子体后续进入更不稳定的区域。

k = 0.2 较低阈值控制器在实验早期过于保守，过度抑制了不稳定性的可能性。直到 t = 5 秒时，AI 都维持了极低的撕裂度（小于 0.2），但在 t = 5.5 秒时突然出现了难以避免的不稳定性。

相比之下，中等阈值 (k = 0.5) 的控制器能够持续维持等离子体稳定直至平顶期结束，并最终再次恢复 βN 。这表明，为了长时间维持稳定的等离子体，需要一个最优阈值。

追逐清洁能源圣杯，仍面临重重挑战

可控核聚变的实现是现代科学和工程领域最具挑战性的目标之一，被认为是清洁能源的圣杯。人类什么时候才能捧起这一圣杯，AI 在其中又扮演了什么样的角色？

这项研究成功证明了 AI 在有效控制聚变反应方面的潜力。此外，本论文的一作 Jaemin 在首尔国立大学核工程系攻读博士学位期间也创新性地利用强化学习方法，为 KSTAR（韩国超导托卡马克高级研究设施）设计了一种新型的等离子体控制算法。

尽管目前已经有越来越多的研究人员开始围绕核聚变展开深入科研，一步步走近这座圣杯，但目前仍有较多技术壁垒亟待解决：

1. 等离子体稳定性：

控制高温等离子体的稳定性是实现可控核聚变的关键难题之一。等离子体必须被保持在足够高的温度和压力下，以维持必要的聚变反应速率，而这要求极为精确的磁场控制技术。

2. 材料问题：

目前还没有能够承受长期高温、高中子流照射且不显著降解的材料。中子照射会导致材料变脆、性能下降，这对于反应堆的长期运行和经济性是一个大问题。

3. 能量捕获与转换：

如何高效地从聚变反应中捕获能量，并将其转换为电能，也是目前研究的重点。高效率的热电转换系统对于实现经济可行的聚变能源至关重要。

4. 聚变燃料的产生和供应：

氚和氘可发生核聚变反应，用于可控核聚变燃料。虽然氘在自然界中相对丰富，但氚极为稀缺，由于人工制备极其困难，需要通过中子捕获等方式在反应堆内部产生或采用其他方法获取，一千克氚的价值足足有上亿美元。

近年来，AI 已经在科研中带来了太多的惊喜，从 AlphaFold 高效预测蛋白质结构，到基于机器学习渲染黑洞图像，再到基于神经网络预测气象变化……