AI は深刻な「鉱業」産業に関与しており、カーネギー科学研究所は相関分析に頼って新しい鉱床を見つける新しい方法を発見しました。

1 年前

情報

Yinrong Huang

特色图像

内容の概要:鉱物は技術社会に不可欠な原材料を提供し、多くの地質学的事象や古代環境の唯一の証拠です。鉱物資源の探索、およびその起源と分布の基礎は、何世紀にもわたって地質学の主要な関心事でした。最近、米国科学アカデミー紀要の補助誌である「PNAS Nexus」は、機械学習モデルを使用して鉱物相関分析を通じて新しい鉱床の住所と鉱物の種類を予測する研究結果を発表しました。

キーワード:機械学習 相関分析 鉱物探査

この記事は、HyperAI Super Neural WeChat パブリック プラットフォームで初めて公開されました~

鉱物は数十億年前に出現し、生物の進化において重要な役割を果たしてきました。現在、地質産業には多くの探査技術がありますが、鉱物資源の隠蔽性や不確実性により、鉱物探査のプロセスは非常に曲がりくねったものです。同時に、リスクが高く、投資サイクルが長く、探鉱の成功率が低いなど、さまざまな課題にも直面しています。

過去の研究で、科学者たちは地球上の 5,000 以上の鉱物がランダムに分布しているわけではないことを発見しました。多くは共生関係(共生)で存在します。いわゆる共生関係は、特定の物理的および化学的規則の下で形成される鉱物の組み合わせです。たとえば、鉱物の形成は母岩の化学組成や環境条件と密接に関係しています。

最近、ワシントンのカーネギー科学研究所のモリソン・ショーナ M 氏は、アリゾナ大学のプラブ・アニルー氏らと協力して、機械学習を使用して鉱物の組み合わせパターンを発見し、鉱物の位置を予測しました。現在の研究結果は、雑誌「PNAS Nexus」に掲載されています。タイトルは「鉱物会合分析による新鉱物出現と惑星類似環境の予測」です。

研究成果は「」に掲載されました。PNAS ネクサス"優れた

用紙のアドレス:

https://academic.oup.com/pnasnexus/article/2/5/pgad110/7163824?login=true

実験概要

研究者らは、鉱物進化データベースのデータを使用して相関ルールに基づいて鉱物の位置を予測する機械学習モデルを開発し、火星のシミュレーション環境としてよく知られているテコパ盆地でそのモデルをテストしました。実験結果は、機械学習が鉱物の場所、鉱物の種類、鉱物の量を効果的に予測できることを示しています。

相関分析は機械学習手法であり、データセット内の相関ルールとパターンを検出するために使用されます。データ内の項目セット間の相関関係を分析することにより、異なる項目セット間の相関関係と依存関係が明らかになります。

この論文の著者らは、適切なデータがあれば、鉱物集合体分析により、新しい鉱物の場所や鉱物の種類だけでなく、特定の場所の鉱物の量も予測できると示唆しています。そして、このモデルは地球だけでなく、あらゆる岩石惑星体にも適用できます。

データセット 

この研究のデータセットには、大規模な鉱物進化データベースからの 5,478 個の鉱物、295,583 個の鉱物起源、および 5,472 個の鉱物起源の関連年齢が含まれています。この情報には、810,907 個の鉱物起源の組み合わせが含まれています。データのサイズが大きいため、研究者はデータをさまざまなサブセットに分割し、そのうちの 3 つを選択しました。

地理的サブセット:研究者らは、鉱物の多様性が高く、地理的範囲が広く十分に文書化されており、広大な地質環境を理由に米国を選択した。このサブセットには、2,622 の鉱物種、93,419 の鉱物ポイント、および 8,139,004 の関連付けルールが含まれています。

地球化学サブセット:研究者らは、基本元素として U を含む 1 つ以上の鉱物種を分析することにより、ウラン含有鉱物相を調べるためにウラン鉱石を選択しました。このサブセットには、5,439 個の鉱物、11,729 個の鉱物サイト、および 60,589,982 個の関連付けルールが含まれています。

時間サブセット:研究者らは、始生代 (> 2.5 Ga)、原生代 (2.5 – 0.54 Ga)、および新生代 (< 0.54 Ga) という 3 つのタイム スライスを選択しました。

モデル開発 

上記のデータセットに基づいて、研究者らはモデルの開発と効果の検証を開始しました。プロセス全体は 3 つのステップに分かれています。

1. 鉱物相関ルールの生成

研究者らは、相関分析で一般的な Apriori アルゴリズムを使用しました。このアルゴリズムは、ボトムアップ アプローチを使用して、頻繁に共起する一連の項目 (鉱物の組み合わせなど) をテストおよび比較することによって相関ルールを生成します。これは、鉱物関連分析に使用できます。

2. 鉱物相関則尤度測定

研究者は、要件を満たす相関ルールを除外するための尤度指標を設定します。可能性指標とは、ミネラル間の相関関係を定量化して評価する指標を指し、一般的な可能性指標にはサポート、信頼性、上昇率が含まれます。

サポートとは、すべてのサンプルに存在する 2 つ以上のミネラルの割合です。サポートが高くなるほど、これらのミネラル間の相関関係が強くなります。

図2:サポートの計算式

信頼度は、ある鉱物が出現するときに、別の鉱物も出現する確率を指します。高い信頼水準は、2 つのミネラル間の強い相関関係を示します。

図 3: 信頼度の計算式

アセンションは、2 つの鉱物が一緒に出現する確率と、それらが独立して出現する確率の比です。リフトが 1 より大きい場合は 2 つのミネラル間に正の相関があることを意味し、1 未満の場合は負の相関があることを意味し、1 に等しい場合は 2 つのミネラル間に相関がないことを意味します。

図4:揚力度計算式

3. ミネラル関連ルールによるミネラルの予測

この研究では、研究者は既存の鉱物データをマイニングして分析し、上記の 3 つのデータ サブセット (地理、地球化学、時間) の相関ルールを生成しました。予測したい場所の鉱物の産状を相関則に基づいて分析・比較し、任意の場所の鉱物の種類、鉱物の組み合わせ、鉱化環境などを予測することができます。

実験結果

この実験は、米国カリフォルニア州のテコパ盆地での結果を検証するために選ばれました。テコパ盆地には火山灰とトラバーチン堆積物が含まれており、近くには玄武岩溶岩流があり、火星の環境をシミュレートできるためです。研究者たちは、その場所で出現するであろう鉱物の種類を予測しました。次の表に示すように:

表 1: テコパ盆地に出現すると予測される鉱物種

この表は、予測の基礎となる相関ルールに関連する信頼性とリフトのメトリクスを示しています。

研究者らはまた、ウランや他のいくつかの重要な鉱物がどこに出現するかを予測し、その予測を地図上にマークした。ウラン鉱石の位置予測結果を下図に示します。その中で、2020年10月から現在までにいくつかの予測が確認されており、鉱物相関分析の予測力を裏付けています。

図 5: ウラン鉱山の推定位置図

他のいくつかの主要な鉱物の位置の予測結果を下の図に示します。

図 6: 他のいくつかの主要な鉱物の予測地理的位置図

2021年10月現在、検証された場所には Mindat のロゴが付いています。 Mindat は、鉱物がどこかで発見されたときに公開する世界的な鉱物データベース Web サイトです。

さらに、地球の歴史における鉱物の発生の変化をさらに理解するために、研究者らは、始生代(>2.5 Ga)、原生代(2.5-0.54 Ga)を含む選択された期間における鉱物関連規則も研究しました。 )および新生代世代(<0.54 Ga)。 3つの期間におけるミネラル配合の改善度を下図に示します。

図7:始生代(a)、原生代(b)、新生代(c)における鉱物集合体の改善度

改善の度合いは、鉱物集合間の相関の強さを表します。始生代、原生代、新生代の鉱物集合の分布には明らかな違いがあることがわかります。このルールは将来の研究に使用できます。環境、気候、その他の要因が鉱物の組み合わせに及ぼす影響をさらに調査します。

上記に基づいて、鉱物相関分析を適用して、新しい鉱物の種類と対象となる鉱物の場所を予測できます。

相関分析: 情報マイニングの分野で最も活発な手法の 1 つ

アソシエーションマイニングとも呼ばれるアソシエーション分析は、データ情報マイニングの分野で最も活発な研究手法の 1 つであり、1993 年に初めて提案されました。この論文の著者は考察セクションで次のように提案しました。相関分析の用途は鉱物集合体に限定されるべきではありません。さらに、共生化石、微生物、分子、地質環境などの他の属性の分析にも応用できます。この方法は拡張性と移植性があり、多くの分野に適用でき、重要な役割を果たすためです。

この論文で説明した鉱物探査における相関分析の応用に加えて、ヒト、動物、植物の遺伝学に関する研究の進歩も注目に値します。現在、この分野の研究者は、相関分析に基づいた一連の新しい方法とソフトウェアを提案しています。たとえば、以前に使用が公開されていた PLINK ソフトウェアは、データ管理、集団構造の評価、複雑な形質と症例対照データの相関分析に使用でき、研究室が開発した遺伝子型と表現型のビッグデータも処理できます。浙江大学のZhu Jun教授によるもので、大規模で複雑な形質オミクスデータを扱うことができる、GPUコンピューティングに基づく相関解析ソフトウェアパッケージです。

データ量は増加し続け、コンピュータサイエンス技術や統計アルゴリズムは常に更新されるため、さまざまな分野での相関分析の応用はさらに発展すると考えられます。新しい効率的で高速な、大規模にラベル付けされた相関分析テクノロジー プラットフォームも登場します。この文脈において、チームや個人がツールを選択するときは、実際のビジネス ニーズに基づいてツールを評価し、比較する必要があります。

参考リンク:

[1]https://www.doc88.com/p-9788189626622.html?

[2]https://zwxb.chinacrops.org/article/2016/0496-3490-42-7-945.html

この記事は、HyperAI Super Neural WeChat パブリック プラットフォームで初めて公開されました~