几乎覆盖元素周期表！Meta 发布开源 OMat24 数据集，含 1.1 亿 DFT 计算结果

2 年前

OMat24 数据集包含超 1.1 亿 DFT 计算结果，涵盖不同的原子构型

OMat24 数据集是目前用于材料训练 DFT 替代模型的最大的开源数据集之一。该数据集由一系列无机体块材料的 DFT 单点计算 (single-point calculations) 、结构弛豫 (structural relaxations) 和分子动力学轨迹 (molecular dynamic trajectories) 组成。研究人员总共计算了约 1.18 亿个标注有总能量、力 (forces norm) 和晶胞应力 (stress) 的结构，使用了超过 4 亿核时的计算资源。

这些结构是通过玻尔兹曼采样生成扰动结构 (sampling of rattled structures) 、从头算分子动力学 (ab initio molecular dynamics, AIMD) 、以及扰动结构的弛豫 (relaxations of rattled structures) 3 种技术生成的。

OMat24 数据集具有广泛的能量、力和应力分布。下图展示了 OMat24 数据集、 MPtrj 数据集以及 Alexandria 数据集的总能量 (total energy，单位用 eV/atom 表示) 、力 (forces，单位用 eV/A 表示) 和应力 (stress，单位用 GPa 表示) 标签的分布情况。

* MPtrj 数据集 (Materials Project Trajectory Dataset) 包含超过 150 万个无机结构的 DFT 计算结果。因其大规模和多样性，在材料科学和计算材料学领域具有重要的应用价值。

* Alexandria 数据集是一个量子化学数据库，为力场开发、密度泛函的开发和评估提供了大量的分子属性数据。

橙色虚线代表 MPtrj 数据集、蓝色虚线代表 Alexandria 数据集、绿色实线代表 OMat24 数据集

可以看到，OMat24 数据集的能量分布略高于用作输入结构的 Alexandria 数据集，并且显著高于 MPtrj 数据集；OMat24 数据集的力以及晶胞应力分布远高于 MPtrj 和 Alexandria 数据集。

值得一提的是，OMat24 数据集所包含的元素也几乎覆盖了元素周期表。如下图所示：

尽管 OMat24 数据集与其他数据集相比具有优越性，但研究人员同时也说明了该数据集还存在局限性。该数据集是基于 PBE 和 PBE+U 级别的 DFT 计算得到的，它只包含周期性体相结构，未考虑点缺陷、表面、非化学计量比以及低维结构的重要影响，因此存在固有的近似误差，但这些误差在其他泛函中得到了一定程度的解决。

如下图所示，研究人员将 WBM 数据集中的计算结果与采用 OMat24 DFT 设置的单点计算结果进行了比较，结果发现二者之间平均绝对误差为 52.25 meV/atom 。
* WBM 数据集是一个大规模的计算材料数据库，包含了使用 DFT 计算得到的大量材料的电子结构和热力学性质数据，如形成能、熵变、比热容等。

以 EquformerV2 为模型架构，基于三大数据集进行模型训练

研究人员利用 OMat24 数据集以及 MPtrj 数据集和 Alexandria 数据集来训练模型。由于 Alexandria 数据集和用于测试的 WBM 数据集中存在类似的结构，研究人员对 Alexandria 数据集进行了子采样以进行训练，确保训练数据集和测试数据集之间没有遗漏。

首先，研究人员删除了所有与 WBM 初始结构和弛豫结构中相匹配的部分，创建了 Alexandria 的新子集 (sAlexandria) 。为了缩小数据集，研究人员删除了总能量 > 0 eV 、力范数 > 50 eV/Å 和应力 > 80 GPa 的结构。最后，只对剩余轨迹中能量差大于 10 meV/atom 的结构进行采样。最终用于训练和验证的结果数据集分别有 1,000 万和 50 万个结构。

对于模型架构，研究人员选择 EquiformerV2，它是目前在 OC20 、 OC22 和 ODAC23 排行榜上表现最好的模型。

对于模型训练，研究人员探索了 3 种策略：

* 仅在 OMat24 数据集上训练 EquiformerV2 模型，带有和不带有去噪增强目标 (denoising augmentation objectives) 。这些模型具有最强的物理意义，因为它们仅适合包含与旧版 Materials Project 设置相关的底层伪势重要更新的数据集。

* 仅在 MPtrj 数据集上训练 EquiformerV2 模型，带有和不带有去噪增强目标，可用于直接与 Matbench Discovery 排行榜进行比较（标记为 compliant 模型）。

* 在 MPtrj 或 sAlexandria 结合的数据集上进一步微调 OMat24 或 OC20，从而进行 EquiformerV2 模型训练，使其成为 Matbench Discovery 排行榜上表现最好的模型（标记为 non-compliant 模型）。

下表展示了基于 EquiformerV2 架构训练的模型以及不同规格模型分别对应的参数总数和推理吞吐量：

基于 EquiformerV2 训练的模型在 Matbench-Discovery 排行榜表现最优

研究人员使用 Matbench-Discovery 基准对 EquiformerV2 模型进行评估，结果显示无论是在 compliant (仅使用 MPtrj 训练) 还是 non-compliant (使用额外数据训练) 的模型上，EquiformerV2 模型在排行榜上都达到了最优的表现 (F1 分数是主要评判指标) 。

下图展示了 Matbench-Discovery 排行榜上其他 non-compliant 模型的表现。

结果显示 eqV2-M 模型的 F1 得分为 0.916，平均绝对误差 (MAE) 为 20 meV/atom，均方根误差 (RMSE) 为 72 meV/atom，为材料稳定性的预测设立了新的基准。

此外，仅在 MPtraj 数据集上训练的 EquiformerV2 模型也表现出色，这得益于有效的数据增强策略，如对非平衡结构进行去噪 (DeNS) 。从上表可以看出，基于 OMat24 数据集预训练的模型在精度方面优于传统模型，特别是在处理非平衡配置时表现突出。

开源成为材料科学与 AI 融合的加速器

在当今这个由数据驱动的时代，AI 正以其前所未有的速度和精度，重塑着材料科学的研究范式。特别是围绕材料科学开源的 AI 知识、工具和数据，让更多研究人员、开发者甚至是爱好者有机会共同参与到创新的过程中，协力推进材料科学的发展。

对于此次 OMat24 开源数据集及其模型的发布，机器学习大牛、微软研究院首席科学家 Max Welling 在社交平台表示「我对 OMat24 这个新数据集感到特别兴奋，它催生了一个新的 SOTA 级别的机器学习力场基础模型。」

其实早在 2011 年，美国伯克利国家实验室 (LBNL) 就发布了 Materials Projec 。该数据集包含了大量无机材料的计算数据，如晶体结构、电子结构和热力学性质等，成为了当下材料科学研究的重要数据资源。
论文地址：
https://go.hyper.ai/KExvK

Materials Projec 数据集下载地址：

https://go.hyper.ai/BOQS0

又如美国西北大学 (Northwestern University) 在 2013 年发布了开源量子材料数据集 OQMD，包含了 1,226,781 种材料的热力学和结构性质的计算结果，被广泛用于对多种材料应用进行高通量的 DFT 分析。
论文地址：
https://www.nature.com/articles/npjcompumats201510

OQMD 数据集下载地址：
https://go.hyper.ai/X4fE5

2018 年，麻省理工学院 (MIT) 发布 CGCNN 模型。该模型在材料科学中应用广泛，通过图神经网络实现对材料性质的预测，如预测晶体材料的带隙、磁性和热力学稳定性等性质。
论文地址：
https://arxiv.org/pdf/1710.10324

2020 年，美国国家标准与技术研究院 (NIST) 发布 JARVIS 开源平台，专注于预测材料性质和电子结构。 JARVIS-ML 是其机器学习模块，提供了丰富的数据集和基于机器学习的材料筛选工具，支持 DFT 、分子动力学模拟和机器学习，能够帮助研究人员快速筛选和发现新材料。
论文地址：
https://arxiv.org/abs/2007.01831

2021 年，NIST 又发布了 ALIGNN 模型。该模型通过引入线图来捕获原子间的复杂相互作用，可以有效提高材料性质预测的准确性。
论文地址：
https://www.nature.com/articles/s41524-021-00650-1

可以看出，从高通量筛选到自动化材料设计，开源已经成为推动材料科学与 AI 融合的重要加速器，正引领材料科学进入更智能、更高效的新纪元。

参考资料：

1.https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/

2.https://www.notebookcheck.net/Meta-unveils-OMat24-AI-powered-materials-discovery-goes-open-source.904139.0.htm

3.https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/

几乎覆盖元素周期表！Meta 发布开源 OMat24 数据集，含 1.1 亿 DFT 计算结果

2 年前

资讯

OMat24 数据集包含超 1.1 亿 DFT 计算结果，涵盖不同的原子构型

* Alexandria 数据集是一个量子化学数据库，为力场开发、密度泛函的开发和评估提供了大量的分子属性数据。

值得一提的是，OMat24 数据集所包含的元素也几乎覆盖了元素周期表。如下图所示：

以 EquformerV2 为模型架构，基于三大数据集进行模型训练

对于模型架构，研究人员选择 EquiformerV2，它是目前在 OC20 、 OC22 和 ODAC23 排行榜上表现最好的模型。

对于模型训练，研究人员探索了 3 种策略：

* 仅在 MPtrj 数据集上训练 EquiformerV2 模型，带有和不带有去噪增强目标，可用于直接与 Matbench Discovery 排行榜进行比较（标记为 compliant 模型）。

下表展示了基于 EquiformerV2 架构训练的模型以及不同规格模型分别对应的参数总数和推理吞吐量：

基于 EquiformerV2 训练的模型在 Matbench-Discovery 排行榜表现最优

下图展示了 Matbench-Discovery 排行榜上其他 non-compliant 模型的表现。

结果显示 eqV2-M 模型的 F1 得分为 0.916，平均绝对误差 (MAE) 为 20 meV/atom，均方根误差 (RMSE) 为 72 meV/atom，为材料稳定性的预测设立了新的基准。

开源成为材料科学与 AI 融合的加速器

Materials Projec 数据集下载地址：

https://go.hyper.ai/BOQS0

OQMD 数据集下载地址：
https://go.hyper.ai/X4fE5

可以看出，从高通量筛选到自动化材料设计，开源已经成为推动材料科学与 AI 融合的重要加速器，正引领材料科学进入更智能、更高效的新纪元。

参考资料：

1.https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/

2.https://www.notebookcheck.net/Meta-unveils-OMat24-AI-powered-materials-discovery-goes-open-source.904139.0.htm

3.https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/

Command Palette

几乎覆盖元素周期表！Meta 发布开源 OMat24 数据集，含 1.1 亿 DFT 计算结果

OMat24 数据集包含超 1.1 亿 DFT 计算结果，涵盖不同的原子构型

以 EquformerV2 为模型架构，基于三大数据集进行模型训练

基于 EquiformerV2 训练的模型在 Matbench-Discovery 排行榜表现最优

开源成为材料科学与 AI 融合的加速器

Command Palette

几乎覆盖元素周期表！Meta 发布开源 OMat24 数据集，含 1.1 亿 DFT 计算结果

OMat24 数据集包含超 1.1 亿 DFT 计算结果，涵盖不同的原子构型

以 EquformerV2 为模型架构，基于三大数据集进行模型训练

基于 EquiformerV2 训练的模型在 Matbench-Discovery 排行榜表现最优

开源成为材料科学与 AI 融合的加速器

相关报道

自主生成新型材料，科学家基于贝叶斯优化框架实现含镓材料反向设计，优化结果具有 100% 独特性和新颖性

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

康奈尔大学开发多智能体平台 EMSeek，仅需 2-5 分钟即可将电子显微镜图像转化为材料学见解

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

Command Palette

几乎覆盖元素周期表！Meta 发布开源 OMat24 数据集，含 1.1 亿 DFT 计算结果

OMat24 数据集包含超 1.1 亿 DFT 计算结果，涵盖不同的原子构型

以 EquformerV2 为模型架构，基于三大数据集进行模型训练

基于 EquiformerV2 训练的模型在 Matbench-Discovery 排行榜表现最优

开源成为材料科学与 AI 融合的加速器

相关报道

自主生成新型材料，科学家基于贝叶斯优化框架实现含镓材料反向设计，优化结果具有 100% 独特性和新颖性

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

康奈尔大学开发多智能体平台 EMSeek，仅需 2-5 分钟即可将电子显微镜图像转化为材料学见解

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

相关报道

自主生成新型材料，科学家基于贝叶斯优化框架实现含镓材料反向设计，优化结果具有 100% 独特性和新颖性

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

康奈尔大学开发多智能体平台 EMSeek，仅需 2-5 分钟即可将电子显微镜图像转化为材料学见解

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

相关报道

自主生成新型材料，科学家基于贝叶斯优化框架实现含镓材料反向设计，优化结果具有 100% 独特性和新颖性

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

康奈尔大学开发多智能体平台 EMSeek，仅需 2-5 分钟即可将电子显微镜图像转化为材料学见解

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」