上海交通大学 AI4S チームは「インテリジェント科学施設」の概念を提案し、学際的な AI 科学研究助手を設立

特色图像

近年、科学研究における人工知能の応用は深化を続けており、同時にタンパク質のフォールディングから新素材の発見、病気の予測から予後まで応用分野の幅も拡大し続けています。天体探査から自然災害分析まで、診断と治療…AI for Scienceの多大な開花の陰で、一方では科学研究分野における国内外のAI企業の研究開発が、その地位を低下させている。 AI ツールを使用するためのしきい値である一方で、科学研究者が「AI ヘルパー」を受け入れ、効率的なコラボレーション モデルを行うプロセスでもあります。

Nature の分析によると、Scopus データベースでは、タイトルまたは要約に人工知能または人工知能関連のキーワードが記載されている論文の割合が、10 年前の 2% から現在 8% まで増加しています。しかし、Google DeepMindに代表される大手テクノロジー企業が発表した大規模なモデルやその他のツール、また国内外の大学の研究チームが発表した関連研究成果を見ると、その多くは特定分野の特定の問題を指向したもので、不十分なところがあります。複製可能性。

北京大学知能学院の林周晨教授は以前、HyperAIとの独占インタビューで、「現在のAIツールには統一性が欠けている。たとえ数学のみを対象としていたとしても、数学向けに開発されたAIツール間にはすでに大きな違いがある」と述べた。数論や幾何学は言うまでもなく、AI ツールは今日のコンピューターのように基本的な基盤になっておらず、現在のコンピューター言語には C 言語、Java、Python などが含まれます。これらの言語、物理学、化学、その他の学際的な問題のいずれかに基づいて解決することができ、これはその多用途性を反映していますが、Google DeepMind の Alpha シリーズを見るだけで何かがわかるわけではありません。」

これを考慮して、上海交通大学人工知能研究所のAI for Scienceチームのヤン・シャオカン教授らは、インテリジェント科学施設の構築コンセプトを提案した。科学分野の大型モデル、生成シミュレーションと反転、自律型インテリジェント無人実験、大規模で信頼できる科学研究コラボレーションなどの革新的な機能を形成しました。関連する研究結果は「」に掲載されています。中国科学院論文集》。

用紙のアドレス:
http://www.bulletin.cas.cn/previewFile?id=52965146&type=pdf&lang=zh
公式アカウントをフォローし、バックグラウンドで「AI4S」に返信すると完全な論文を入手できます

イノベーションとエンパワーメントを考慮に入れる

上海交通大学の AI for Science チームは、基礎科学におけるソースイノベーションとインテリジェント時代における主要な下流技術イノベーションを達成するには、次の 2 つの中心的な問題を早急に解決する必要があると提案しました。


*科学のための AI の研究パラダイムに基づいて、新しい科学的かつインテリジェントな施設を構築するにはどうすればよいですか? 

*新世代の AI を使用して従来の科学施設を強化するにはどうすればよいですか?

知能科学施設の全体構想

イノベーションレベルでは、基礎科学分野における新世代AI(特に生成型AIや大規模モデル)の創造性や汎用性を体系的かつ総合的に解放し、自発的な仮説生成、自動ルール演繹、自律的無人実験、自己駆動を実現する必要がある。信頼できるコラボレーションやその他の革新的な機能により、超大規模で高速な科学探査を促進します。

伝統的な科学施設と研究パラダイムの下では、科学研究のプロセス全体には、科学的問題の伝達の難しさ、科学実験の運営の難しさ、科学データの共有の難しさなどの困難があります。このような問題は、一部の大規模で洗練された科学施設やその非常に複雑な科学研究環境で特に顕著です。新世代の AI を使用して「科学的問題 (科学者) - 実験装置 (実験者) - 科学研究データと文書 (科学研究機関と仲介者)」の効率的な閉ループを実現することは、新しい科学施設の標準的な要件であるだけでなく、科学施設のアップグレードや改修の過程における既存のニーズや機会にも対応します。

そこで、研究チームが提案する「AI対応科学施設(AISF)」構築のコンセプトは、「高度にインテリジェントな新しい科学施設の創出」と「既存の科学施設の強化」という2つの側面を考慮したものとなっている。

インテリジェント科学施設のアーキテクチャ上の前提条件

上の図に示すように、インテリジェント科学施設は、人間が関与する科学インテリジェント施設の 3 層アーキテクチャを形成します。


※ベーシックサポート層、高性能コンピューティングおよびコンピューティング電力ネットワークを通じてコンピューティング電力サポートを形成します。 

*科学モデル層、学際的かつクロスモーダルな科学モデル、および「AI科学研究アシスタント」を構築します。
*実験用アプリケーション層、AI 操作ロボットとインテリジェントな実験環境を通じて、自律的な無人実験と多者間の科学研究協力が実現します。

4つの革新的な機能

3 層アーキテクチャに基づいて、インテリジェント科学施設は、従来のパラダイムにはない 4 つの主要な新しい機能、つまり大規模科学モデル、生成シミュレーションと反転、高スループットの自律的無人実験、および大規模で信頼性の高い科学実験を形成できます。研究協力。

スマート科学施設の革新的な機能

科学的モデル

「AI アシスタント」として、科学的大規模モデルは人間の科学者が科学研究を行うのを支援します。科学者は学際的な知識の背景を持ち、クロスモーダルなデータ入力を処理し、外部の科学ツールを呼び出す能力を習得し、フィードバックと評価を組み合わせる必要があります。継続的な進化。

科学的な大規模モデルの全体的なアーキテクチャ

上の図に示されているように、大規模な科学モデルを構築するには、基本的な大規模言語モデルの上に 4 つの特殊な機能を形成し、対応する評価ベンチマークを構築する必要があります。

1 つ目は、専門分野やモダリティ全体でインプットを統合できることです。科学研究によって生成されるデータには、一般にテキストデータに加えて、数式、チャート、分子式などのマルチモーダルデータが含まれます。これらのクロスモーダルデータの統合入力をどのように実現し、学際的な専門家が共同でモデル化するか。知識は、大規模な科学モデルを確立する上で緊急に解決する必要がある課題です。

2 つ目は、外部の科学ツールを効果的に使用する能力です。大規模なモデルには、一見合理的だが実際には誤ったコンテンツが出力されるという問題があります。この問題を解決する実現可能な技術的方法は、信頼性と精度を向上させるためにさまざまな種類の外部科学ツールを呼び出して、大規模なモデルを計画および推論エンジンとして使用することです。

3 つ目は、モデルが継続的にフィードバックして進化できることです。一方では、科学的な大規模モデルは、科学研究者からの質の高いフィードバックを利用して、科学分野の専門知識を向上させ、科学知識のモデリングと推論能力を強化し、科学コンテンツの生成、文献の誘導と推論などを改善することができます。その一方で、実験フィードバックを使用して、科学的仮説を生成し、実験計画を最適化する能力を継続的に向上させることができます。

4つ目は錯覚(幻覚)除去能力。幻覚は、モデルによって生成されたコンテンツが現実世界の事実やユーザー入力と矛盾する現象です。専門知識を効果的にスクリーニングし、高精度の専門知識を強化学習に使用して大規模モデルの反復と更新を実現する方法は、科学的幻想を排除するための重要な方法です。さらに、基本モデルに基づいた方向性の最適化と統合により、特定の分野におけるモデルの信頼性と精度を向上させることができ、これは科学的幻想を修正するための重要な方法でもあります。

やっと、科学的な大規模モデルの評価ベンチマークは、一方では大規模な科学モデルのクロスモーダルかつ学際的なデータ理解とモデリング能力をテストし、他方では大規模な科学モデルが科学的ツールを正確かつ確実に使用できるかどうかを評価します。複雑なタスクを完了できるかどうか、および虚偽の有害なコンテンツの生成を拒否する強力な能力があるかどうか。

生成シミュレーションと反転

「理論と現象」の間の演繹を達成するためにシミュレーションおよびコンピューターシミュレーションツールを使用することは、科学研究の重要なパラダイムの 1 つです。数値計算に基づく従来のシミュレーション手法には、現実世界の多くのシナリオにおいて、解の速度と精度の点で限界と課題があります。

シミュレーション空間での生成シミュレーションと反転

上図に示すように、基本構造として生成ニューラルネットワークを使用し、複雑なシステムの数値解問題はデータフィッティング問題に変換できます。仮説空間からシミュレーション空間への効率的なマッピングを確立して、ソリューションをスピードアップします。また、生成レンダリング技術を活用することで、シミュレーション空間から観察空間へ科学現象を見かけ上生成することも実現でき、「仮説・シミュレーション・観察」の3空間にわたる閉ループ学習と逆転法則の駆動を実現します。

自律知能型無人実験システム

自律型インテリジェント無人実験システムは、AIやロボティクス分野の技術成果と科学実験を融合し、無人化・標準化・大規模な実験プロセスを通じて実験の効率性と再利用性を向上させることを目的としています。

セルフサービス型インテリジェント無人実験システム

その中で、無人実験操作プラットフォームとインテリジェントシステムのタスクプロセスは主に3つのステップで構成されます。
*計画の自動最適化 

*自律的なミッション計画
※無人実験運転

同時に、動作精度にもよりますが、無人実験操作は、ミクロとマクロの 2 つの空間スケールに分類できます。顕微鏡スケールでの無人実験の対象となるのは生きた細胞やタンパク質などの微粒子であり、高精度な操作のスループットを向上させることが主な課題となります。マクロスケールの無人実験操作は、実験プロセスの完全性に焦点を当てており、ロボットアームを備えた移動ロボットが実験装置間を自律的に移動して、マルチタスクの全プロセス自動実験を完了します。

さらに、ハードウェア オントロジー プラットフォームに基づいたインテリジェント システム ソフトウェアの構築は、自律型インテリジェント無人実験プラットフォームのもう 1 つの基本的な課題です。ソフトウェアは、独自の状態認識、外部環境認識、モバイル ナビゲーション、機器の位置決め、および実験操作の実行を推進します。およびその他のプロセス。深層強化学習と模倣学習は、環境相互作用の経験軌跡や専門家の指導軌跡を通じて自律学習を行い、観察情報と最適な行動の間のマッピング関係を構築できます。

大規模な科学研究協力

インテリジェントな科学施設は、AI モデルの開発とテストを容易にするデータ共有をサポートしますが、データ開発者の知的財産権と利益を確認し、保護するために一連の措置を設計する必要があります。近年、分散科学(DeSci)は科学研究者の間で大きな注目を集めています。DeSci は、スマートコントラクトやブロックチェーンを含む Web3 ツールを使用して、科学研究における知的財産の問題を解決し、科学データの共有と流通を促進することを目指しています。

研究チームが提案する知的科学施設アーキテクチャでは、ブロックチェーン技術は、安全で信頼性の高い共同作業環境を構築するための基盤を提供し、分散型共同学習環境でデータのセキュリティと科学研究の効率を確保し、さまざまな科学研究モジュールを効率的に統合できます。統一プラットフォーム上での大規模な科学研究コラボレーション。

大規模学術研究連携体制

実践して科学用AIの開発を推進する

インテリジェント科学施設の概念実装の第 1 段階として、上海交通大学は、科学計算パワーベース、科学データ、人工知能、科学コラボレーションを含む 4 つのサブプラットフォームを含む、AI for Science 科学データオープンプラットフォームを構築しました。 、このプラットフォームに基づいて開発された「Magnolia Science Model」は、化学、流体、法律、科学間評価ベンチマークなどの方向をカバーするバージョン 1.0 および 2.0 を 2023 年 7 月と 12 月にリリースします。

で、最近リリースされた「Magnolia Science Model 2.0」には、「Legal Open Source (BAI-Law-13B)」と「Chemical Synthesis 2.0 (BAI-Chem 2.0)」が含まれています。

BAI-Law-13B は、大規模な中国のインターネット、オープンソース コード、司法文書、法的文書、法的書籍、およびその他の信頼できるデータを通じて現場で事前トレーニングされており、これに基づいて BAI-Law-13B-Base モデルを形成しています。法的知識の記憶、法的知識の理解、法的知識の適用、その他の司法適用シナリオが統合され、監視および微調整され、BAI-Law-13B-SFT モデルを形成します。第三者による法的総合評価ベンチマークにおいて、 法律ベンチ  テストでは、すべてのオープンソースの中国の一般モデルと中国の法的モデルを上回りました。

BAI-Chem 2.0 は、迅速かつ効率的な薬物分子設計を実現し、1 秒あたり 30 個の薬物様の高親和性標的分子を設計できます。USPTO の公開データセットでの Top1 のシングルステップ逆合成の精度は、USPTO テストセットと比較して向上しています。現在の文献では最高の15%。ハイスループット実験データの収率予測 R² は 0.88 に達し、触媒推奨精度は 93.7% に達しました。現在、BAI-Chem 2.0 は湿式実験の検証に効果的に接続されており、オンラインでの実験の最適化を実現し、化学実験の効率を迅速に向上させています。

科学のための AI に対する初期の注目とそれに対応する研究チームの設立は、上海交通大学が AI の最先端の応用である AI4S を非常に重視していることを示すのに十分です。現在、チームは関連する成果を上げているだけでなく、関連企業との協力も続けており、近い将来、「インテリジェント科学施設構想」における学際的かつプラットフォームベースのコラボレーションが実現すると考えられている。

参考文献:
1.https://news.sjtu.edu.cn/jdzh/20240124/193351.html
2.https://cloud.baidu.com/news/news_85aaa2be-241d-45c2-8aa1-3c8bbcfbd09b