HyperAI超神経

無機材料設計・結晶構造予測・材料特性記録などを網羅し、Meta/Microsoftなどのオープンソースデータセットやモデルをまとめています。

2ヶ月前
情報
h.li
特色图像

人工知能と材料科学の統合が加速する背景で、データセットは徐々に材料研究におけるパラダイムシフトを推進する中核エンジンになりつつあります。物理モデルに基づく従来の計算方法からデータ駆動型のインテリジェント予測への移行は、アルゴリズムのパフォーマンスの向上だけでなく、高品質の材料データのサポートにも依存します。データの包括性、精度、再現性は、材料特性の予測、構造生成、機能の発見などのタスクにおけるモデルのパフォーマンスの上限を直接決定します。

画像や自然言語などの分野とは異なり、材料データは高度に構造化されており、複雑な物理的制約、マルチスケール結合、クロスモーダル融合などの特性があるため、データセット構築のハードルが高くなります。第一原理計算の結果であれ、実験測定データであれ、その収集、クリーニング、標準化、ラベル付け、保管は、データの信頼性と一般化能力を確保するために、厳密に科学的なプロセスに従う必要があります。

特に、結晶構造と材料特性データの体系的な整理により、基礎物理モデリングから機械学習モデリングへの道がより実現可能になります。データセットに含まれる形成エネルギー、バンドギャップ、体積、密度などの多次元情報は、研究者が特性予測、材料スクリーニング、および潜在的な用途分析を実行するための強固なデータ基盤を提供します。同時に、標準化されたフォーマット、統一された命名システム、豊富なメタデータにより、データのトレーサビリティとクロスプラットフォームの可用性も大幅に向上します。

関連分野の学者がより良い研究を行えるよう支援するために、HyperAI は、現在業界で広く注目を集めている材料科学データセットと、ワンクリック展開チュートリアルをまとめました。量子材料、無機材料、結晶構造などの複数の主要な方向をカバーし、複雑で膨大な材料データを研究者に真に役立てることができます。

クリックすると、さらにオープン ソース データセットが表示されます。https://go.hyper.ai/g9PvL

材料データセットの概要

1. OMat24 無機材料データセット

推定サイズ:185.67 GB

ダウンロードアドレス:https://go.hyper.ai/hptlY

2024年、MetaはOpen Materials 2024(OMat24)という大規模なオープンソースデータセットをリリースしました。このデータセットには、平衡構造と非平衡構造からサンプリングされたさまざまな原子構成を網羅し、構造と組成の多様性に重点を置いた1億1000万件以上のDFT計算結果が含まれています。これは現在、材料の DFT 代替モデルをトレーニングするための最大のオープンソース データセットです。

2. OQMDオープンソース量子材料データセット

推定サイズ:32.89 GB

ダウンロードアドレス:https://go.hyper.ai/qDyGS

OQMD データセットには、密度汎関数理論 (DFT) によって計算された 1,226,781 を超える材料の熱力学的および構造的特性が含まれています。データは無機結晶構造データベース (ICSD) から取得され、約 300,000 種類の化合物の DFT 総エネルギー計算と一般的な結晶構造の修正が含まれており、量子材料データを保存して共有することを目的としています。

3. Materials Projectオンライン材料データセット

ダウンロードアドレス:https://go.hyper.ai/ELmmX

Materials Project は、大規模なオープンオンライン材料データセットです。データには、結晶構造、エネルギー特性、電子構造、熱力学的特性が含まれており、材料表現、光電子特性、機械的特性、物理化学的特性、安定性と反応性、熱力学的特性、磁気的特性など、さまざまな側面をカバーしています。

4. LLM4Mat-Bench結晶構造データセット

ダウンロードアドレス:https://go.hyper.ai/fSTbI

LLM4Mat-Bench は、材料特性予測のためのマルチモーダル言語モデル評価データセットです。これには、10 個の公開材料データベースからの約 197 万個の結晶構造サンプルが含まれており、45 種類の異なる材料の物理的および化学的特性をカバーしています。これは、物質特性予測のための大規模言語モデル (LLM) のパフォーマンスを評価するこれまでで最大のベンチマークです。

5. 材料DFT材料特性データセット

ダウンロードアドレス:https://go.hyper.ai/ju56p

このデータセットは、さまざまな化学組成と物理的特性を網羅する、Materials Project データベースからの多数の高品質な材料特性レコードを提供します。各レコードは固有の材料に対応しており、すべての特性は密度汎関数理論 (DFT) 計算によって得られます。

クラシックチュートリアル

HyperAI公式サイトでは、高品質なデータに加え、ワンクリック展開をサポートする「MatterGen無機材料設計モデルデモ」も公開しており、利用の敷居を大幅に下げています。

チュートリアルのアドレス:https://go.hyper.ai/5mWaL

MatterGen は、Microsoft がリリースした生成 AI ベースの無機材料設計モデルであり、拡散モデルを通じて特定の化学的、機械的、電子的、または磁気的特性を持つ新しい材料を直接生成することを目的としています。

具体的には、MatterGen モデルは主に拡散アーキテクチャに基づいています。まず、原子の種類、原子の位置、周期的な格子を徐々に破壊してランダムな構造を作り、次にこのプロセスを逆に実行するようにモデルをトレーニングします。これにより、モデルはランダムノイズから徐々に元の物質構造を復元する方法を学習できます。論文の責任著者である謝天氏は、これはビデオ生成の核となる考え方に非常に似ていると考えています。

上記はHyperAIがまとめた素材データセットです。 hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、ぜひメッセージを残したり、投稿を送信してお知らせください。