HyperAI超神经

晶体材料是一类具有规则排列的原子、离子或分子结构的材料，在工业和科技领域中扮演着重要角色。

然而晶体材料的生成和设计过程并不简单，通常需要同时考虑离散变量和连续变量的组合。其中离散变量定义了材料的基本框架（如原子类型和初始晶格结构），而连续变量允许在这个基本框架内进行微调和优化，以最终生成具有特定物理、化学性质的晶体材料。

随着 AI 技术的跨学科应用，如何在模型中实现离散与连续变量的有效结合，以获得高质量的晶体材料生成效果，成为晶体材料生成领域的核心难题。

尽管现有的方法，包括自回归大语言模型 (LLM) 和去噪模型（如去噪扩散模型和流匹配模型），已经在这一领域取得了一定的成功，但它们都有各自局限性。

具体而言，LLM 在离散值建模方面表现出色，尤其擅长处理原子类型等离散元素，但它难以精确描述晶格几何和原子间的位置。而去噪模型在处理连续变量上更具优势，能够较好地保持晶体结构中的等变性，但在原子类型等离散元素的建模上面临障碍。

基于此，Meta 旗下的 FAIR 实验室联合阿姆斯特丹大学发布材料生成模型 FlowLLM 。这是一种结合大语言模型（LLM）和黎曼流匹配（Riemannian flow matching，简称 RFM）的新型生成模型，在生成稳定材料的效率上比以往模型提升了 300% 以上，生成 S.U.N. 材料的效率也提高了约 50%，同时保留了 LLM 能够通过自然语言提示的能力。

* S.U.N. 材料是指在材料科学领域中，通过 AI 技术生成的具有稳定性 (stable) 、独特性 (unique) 、新颖性 (novel) 的材料。这个概念是微软在讨论 MatterGen 模型时提出的。

相关研究以「FlowLLM: Flow Matching for Material Generation with Large Language Models as Base Distributions」为题，已上传在预印网站 arXiv，并被 NeurIPS 2024 接收。

研究亮点：
* FlowLLM 将 LLM 和 RFM 进行了结合，有效地弥合了离散和连续建模之间的差距，大幅提升了生成稳定、独特且新颖材料的效率

* FlowLLM 在生成新颖且稳定的材料方面显著优于 CD-VAE 、 DiffCSP 、 FlowMM 、 CrystalLLM 等模型，其稳定率比先前最佳模型高约 300%，S.U.N. 率高约 50%

论文地址：
https://arxiv.org/pdf/2410.23405

关注公众号，后台回复「FlowLLM」获取完整 PDF

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：
https://github.com/hyperai/awesome-ai4s

数据集：包含 45,231 种材料，在 MP-20 数据集上进行模型训练

FlowLLM 模型在无机晶体材料数据集 MP-20 上进行训练。 MP-20 包含 45,231 种材料，是 Materials Project 的一个子集，包含最多 20 个被认为是亚稳态的原子。

首先，研究人员使用 MP-20 数据集独立训练 LLM，并使用 LoRA (Low-Rank Adapters) 方法在 PyTorch 和 Transformers 中进行微调。之后，研究人员将微调后的 LLM（权重冻结）作为基础分布，将 MP-20 数据集作为目标分布，进一步训练 RFM 模型。

优势互补：结合 LLM + RFM 两大模型，新型生成模型 FlowLLM 应运而生

FlowLLM 是一种结合大语言模型（LLM）和黎曼流匹配（Riemannian Flow Matching，简称 RFM）模型的新型生成模型。它是在此前的工作基础上进一步研究而来，创造性地将 LLM 与 RFM 进行了结合。

其中使用的 LLM 来自 Meta FAIR 及纽约大学于今年 2 月发布的成果「Fine-Tuned Language Models Generate Stable Inorganic Materials as Text」，该研究证明了微调后的 LLM (LLaMA-2 70B) 在预测生成亚稳态材料方面的成功率约为竞争性扩散模型 CDVAE 的 2 倍。

论文地址：
https://arxiv.org/abs/2402.04379

而 FlowMM 则来自 Meta FAIR 及阿姆斯特丹大学于今年 6 月发布的成果「FlowMM: Generating Materials with Riemannian Flow Matching」，作为生成模型， FlowMM 在寻找稳定材料方面的效率是以前开源方法的 3 倍。

论文地址：
https://arxiv.org/abs/2406.04713

如下图所示，研究人员首先使用微调后的 LLM 通过无条件 (unconditional) 查询生成 (prompt) 初始材料表示。然后，RFM 模型对该材料进行迭代转换，更新其原子位置和晶格参数。需要说明的是，在 RFM 中，原子类型保持不变。

研究人员指出，将这两种模型结合可以实现优势互补。一方面，LLM 为 RFM 提供了一个良好的学习基础分布：LLM 的输出分布作为 RFM 的学习基础分布 (learned base distribution），替代了常用的均匀基础分布 (uniform base distribution) 。由于 LLM 已经在材料数据上进行过训练，因此学习到的基础分布更接近目标分布，从而大大简化了与 RFM 的集成。
* 在流模型 (如 RFM) 中，基础分布是模型从中生成样本的起始分布。学习基础分布能够更精确地捕捉到数据的真实结构和模式。特别是在处理复杂数据时（如材料设计中的晶体结构），学习基础分布能够有效地提高生成样本的质量和模型的性能。

另一方面，RFM 优化了 LLM 的输出：LLM 在处理连续值时由于精度有限，会生成一个近似的材料表示值。 RFM 通过迭代去噪优化该近似值，从而生成更精确的表示。

一枝独秀：模型稳定材料生成效率提升 300%，S.U.N. 材料生成效率提高 50%

为了测试模型的性能，研究人员将 FlowLLM 模型与 CD-VAE 模型（变分自编码器与扩散模型的混合模型）、 DiffCSP 模型（扩散模型）、 FlowMM 模型（黎曼流匹配模型）以及 CrystalLLM 模型（对材料序列微调的 LLaMA-2 模型）进行了比较，并让每个模型都生成了 1 万种新结构。

在性能比较中，研究人员关注的主要指标是稳定率 (Stability rate) 和 S.U.N. 率 (S.U.N. rate) 。具体而言，稳定性指的是生成材料中热力学稳定的材料所占比例，它是可合成性的重要指标；S.U.N. 率指的是稳定、独特且新颖的材料所占比例。其结果如下图所示：

在稳定性和 S.U.N. 率方面，FlowLLM 模型生成的材料中热力学稳定的材料占比为 17.82%，S.U.N. 率达到了 4.92% 。研究团队在论文中介绍道，与之前的最优模型相比，FlowLLM 的稳定率提高了 300%，S.U.N. 率提高了 50% 。

Ehull 值是衡量材料稳定性和可合成性的重要参数之一，对于一个给定的材料结构， Ehull 值如果接近零，表示该材料极大程度上是稳定的，并且在实际合成过程中更容易存在。而较高的 Ehull 值则可能表明该材料不易稳定，合成难度较大。

为了进一步测试 FlowLLM 生成的材料稳定性和可合成性，研究人员将 FlowLLM 生成材料的 Ehull 值与已有模型进行了对比，如下图所示，虚线表示热力学稳定性阈值 (Ehull = 0)，红色代表 FlowLLM 模型，蓝色分别表示 CD-VAE 、 DiffCSP 以及 FlowMM 。

可以看出，相较于其他模型，FlowLLM 可以生成更多 Ehull 值较低的材料。也就是说，用 FlowLLM 生成的材料，其稳定性和可合成性都高于其他模型。

此外，研究人员对模型的 N-ary 值进行了评估。 N-ary 值指的是材料中不同元素类型的数量，N-ary 值越高，材料的复杂性越大，合成的难度也越高。如下图所示，研究人员比较了不同模型的 N-ary 值分布。结果显示，相比于扩散模型，FlowMM 和 FlowLLM 更符合数据分布。这意味着，FlowMM 和 FlowLLM 模型在拟合材料数据的过程中，能够更好地捕捉材料的内在结构和分布特性。

最后，研究人员还对模型的 RFM 整合步骤 (integration steps) 进行了比较分析。如下图所示，与需要数百或数千个整合步骤的扩散和流匹配模型相比，FlowLLM 能够在短短 50 个步骤内完成收敛。

晶体材料生成领域的「百家争鸣」

在材料科学研究领域，Meta 旗下的 FAIR 实验室最近可谓是进入成果高产阶段。就在几周前，刚发布了 OMat24 数据集，该数据集包含超过 1.1 亿以结构和成分多样性为重点的 DFT 计算结果，为模型训练提供了新的高质量「原料」。

点击查看详细报道：几乎覆盖元素周期表！Meta 发布开源 OMat24 数据集，含 1.1 亿 DFT 计算结果

其实，在晶体材料生成领域，除了本文提到的 LLM 和去噪模型之外，还有其他几种方法，如基于生成对抗网络 (GAN) 的材料生成、基于变分自编码器 (VAE) 的材料生成、基于图神经网络 (GNN) 的材料生成等等。

2018 年，巴黎东大学 (University Paris Est) 联合索邦大学 (Sorbonne University) 结合了两个跨域 GAN 模块，提出了 CrystalGAN 。值得一提的是，CrystalGAN 在氢储存材料的发现中进行了实际应用，展示了其在解决真实化学和材料科学挑战中的有效性。

相关研究以「CrystalGAN: Learning to Discover Crystallographic Structures with Generative Adversarial Networks」为题，发表在 ICLR 2019 上。

论文地址：
https://openreview.net/pdf?id=SyEGUi05Km

2021 年，麻省理工计算机和人工智能实验室提出 CD-VAE，它通过学习稳定材料的数据分布，捕获了材料稳定性的物理归纳偏差。相关研究以「Crystal Diffusion Variational Autoencoder for Periodic Material Generation」为题，在 ICLR 2022 上发表。

论文地址：
https://openreview.net/forum?id=03RLpj-tc_

2023 年，泰国朱拉隆功大学 (Chulalongkorn University) 联合泰国物理卓越中心 (Thailand Center of Excellence in Physics) 在 CD-VAE 的研究基础上，发布 DP-CDVAE 。 DP-CDVAE 在保持与 CD-VAE 相当的性能的同时，在能量准确性、生成性能和晶格生成质量等方面展现出了显著的优势。

相关研究以「Diffusion probabilistic models enhance variational autoencoder for crystal structure generative modeling」为题，发布在 Nature 上。

论文地址：
https://www.nature.com/articles/s41598-024-51400-4

2023 年，Google DeepMind 材料团队发布用于材料探索的图神经网络模型 GNoME，在短时间内发现了 220 万种新晶体（相当于人类科学家近 800 年的知识积累），其中 38 万种新晶体具备稳定的结构，成为最有可能通过实验合成并投入使用的潜在新材料。

点击阅读详细报道：领先人类 800 年？DeepMind 发布 GNoME，利用深度学习预测 220 万种新晶体

而在今年，日本东北大学和 MIT 的研究人员同样基于 GNN 的方法，提出了 GNNOpt 模型，成功识别出 246 种超过 32% 太阳能转换效率的材料，以及 296 种具有高量子权重的量子材料，极大地加速了能源和量子材料的发现。

点击查看详细报道：基于 944 种材料数据，日本东北大学联合 MIT 发布 GNNOpt 模型，成功识别数百种太阳能电池和量子候选材料

相关的研究成果远不止于此，在晶体材料生成领域，我们正见证着一场「百家争鸣」的繁荣景象。随着研究的深入，我们有理由相信，这些创新的方法和理论将为解决能源、环境和健康等领域的全球性挑战提供关键的解决方案。

稳定性材料生成效率提升 300%！Meta FAIR 发布材料生成模型 FlowLLM，数据集覆盖超 4.5w 种材料

数据集：包含 45,231 种材料，在 MP-20 数据集上进行模型训练

优势互补：结合 LLM + RFM 两大模型，新型生成模型 FlowLLM 应运而生

一枝独秀：模型稳定材料生成效率提升 300%，S.U.N. 材料生成效率提高 50%

晶体材料生成领域的「百家争鸣」