活動レビュー丨上海交通大学/浙江大学/清華大学/OpenBayes 医療/地理情報/都市複合システム/科学研究の新たなパラダイムをカバーする多くの専門家

特色图像

今年のノーベル賞の AI に対する「優先」は、科学のための AI を再び世間の注目を集めました。これは、新しい科学研究パラダイムが一般的な傾向であることを示す画期的な出来事であるとさえ言えます。実験科学から理論科学、計算科学、データ集約科学に至る科学の発展プロセスを振り返ると、それぞれのパラダイムシフトが人類文明の進歩を大きく促進し、その反復プロセスを通じてデータの中核的な役割が変化してきました。変わらずから。

現在、科学のための AI の時代では、データの価値をさらに探求できるようになりました。基礎科学研究の分野ではどのような革新が起こるのでしょうか?垂直分野の研究者は AI をどのように受け入れていますか?

科学のためのAIの発展の波に直面して、HyperAIは国内のAI4Sの開発を促進し、最先端の成果の解釈、代表的な企業のレポート、学術活動の開催などのさまざまな形式を通じて国内の科学研究者のためのコミュニケーションプラットフォームを構築します。 11月2日共同制作コミュニティとして、HyperAI は、第 9 回中国オープンソース年次会議 COSCon'24 およびオープンソース協会 10 周年カーニバルの期間中に、科学のための AI の方向に向けたオープンソース AI フォーラムを開催しました。

幸運なことに、OpenBayes の創設者兼 CEO である Wang Chenhan、浙江大学地球科学部の研究者である Qi Jin、上海交通大学の常任准教授であり、上海人工知能研究所の若手科学者である Xie Weidi を迎えることができました。清華大学電子工学部の研究室および都市科学の研究員、およびコンピューティング研究センターの博士研究員である Ding Jingtao 氏。

このフォーラムでは、4人の講師が医療用人工知能(AI4Health)、地理情報人工知能(GeoAI)、科学研究用インテリジェントコンピューティングクラウドプラットフォーム、AI駆動型都市複合システムに焦点を当て、知識の普及、事例紹介、傾向分析に焦点を当てました。他の側面についても徹底的な共有が行われました。

続いて、講師陣による有益な内容については、改めて書面や動画などでご報告させていただきます。乞うご期待!

AI による科学研究の新たなパラダイム: 人工知能による統計手法の包括的なアップグレード

OpenBayes は、中国の大手人工知能サービス プロバイダーであり、国内の一流大学や研究機関に力を与える過程で、科学向け AI の開発にも深い洞察力を持っています。最先端の研究開発を促進する上での機械学習の価値を考慮し、同社の創設者兼 CEO の Wang Chenhan 氏は、スケール データ X モデル構造 = AI 科学研究の結果 – 従来の研究という革新的な公式を提案しました。

つまり、科学研究のプロセスにおいて、大規模データを効果的なモデル構造に適用することで、あらゆる産業分野の実践的な研究テーマにおいて従来の手法を大幅に超えることができるのです。これが、AI を活用した科学研究がこれまで達成してきたことです。 2 ~ 5 倍の成長の重要な理由。

ワン・チェンハン氏、オープンベイズの創設者兼最高経営責任者(CEO)

同時に、Wang Chenhan 氏は、モデルの構造を変更せずにデータ量をやみくもに増やすと、データの規模が確実である場合、モデルのパラメーターが大きくなるほど、同様に限界的な効果が生じ、パフォーマンスの向上が困難になる可能性があることも強調しました。 、より良いです。データサイズとパラメータサイズが等しく増加する場合にのみ、予測誤り率はより低いレベルに低下します。

さらに、従来の研究方法とAIの研究方法の違いを比較することに焦点を当てました。その中で、従来の研究手法は科学研究者の特性や問題定義能力に大きく依存しており、「小さなデータ」のみを使用しており、その一般化・拡張能力には疑問があります。AI 研究手法では、生成された科学研究結果が現実世界の問題でも有効であるように、大規模で高品質のデータの導入と特徴抽出のための機械学習の使用が必要です。

最後に、Wang Chenhan 氏は、OpenBayes ベイジアン コンピューティングがどのように AI を科学に活用するかを紹介しました—オープンソース データセット、AI/HPC チュートリアル、オープンソース/プライベート モデルなどの科学研究データ要素をクラスター ソフトウェアにカプセル化します。科学研究者がモデル構築、モデル推論、産業用ソフトウェア計算などの側面でワンストップ接続を実現できるように支援します。

GeoAI とその学際的な地球科学への応用

地理情報科学の分野では、航空・空中・地下の立体観測技術の発展によりデータの爆発的な増大が進み、時空間ビッグデータという概念が生まれましたが、さまざまなスケールの時空間プロセスによって生成される膨大なデータです。これは情報マイニングにとっても大きな課題です。

浙江大学地球科学院の研究者、チー・ジン博士は次のように述べています。地理的関係回帰分析は、地理モデリングにおける研究のホットスポットです。新しい空間回帰分析手法を開発し、地理的関係を分析およびマイニングする能力を向上させることは、社会プロセスと地理的現象を理解する上で重要な理論的価値と実践的意義を持ちます。

浙江大学地球科学院の専任研究員、Qi Jin 博士

これに応えて、Qi Jin 博士と彼のチームは、空間重み付けのアイデアとニューラル ネットワーク モデルを統合して、地理的ニューラル ネットワーク加重回帰モデル (GNNWR) が提案されています。地質要素間の非線形関係を当てはめて説明する空間回帰法の能力が拡張されました。同時に、チームはまた、PyTorch (時空間インテリジェント回帰モデル) に基づいたオープンソース モデル ライブラリも構築しました。そのメソッド システムは、地理、地質学、海洋、大気、その他の方向における 30 を超える研究をサポートしてきました。

応用面では、都市部の住宅価格予測、大気汚染分析、海洋生態環境モデリング、その他のシナリオにおける GNNWR モデルのパフォーマンスを紹介しました。

* 海岸沿いのまばらなサンプリング ポイントと未知のポイントの間の時空間関係を確立し、時空間非定常重みを解決して、沿岸水域の溶存ケイ酸塩 (DSi) の高時空間分解能分布を取得します。

* GNNWR は都市環境における空間的非定常性を正確に記述することができ、住宅価格などの都市の地理的プロセスの回帰モデリングを可能にします。

* 変電所で収集された処理済みの AOD、DEM、気候要因データと PM2.5 データを使用して、空間的非定常回帰関係を確立し、PM2.5 濃度を推定します。

* Shapley の解釈可能な理論を GNNWR に統合して、複雑な空間環境における地質学的鉱化条件の正確な予測と説明を実現します。

チームの主な目標: 一般的な医療用人工知能システムを構築する

上海交通大学の常任准教授であり、上海人工知能研究所の若手研究者でもある謝偉迪氏は、2022年に中国に帰国後、医療用人工知能の研究に専念しました。フォーラム、彼は、オープンソースのデータセット構築やモデル開発など、複数の観点からチームの成果を共有しました。

謝偉迪教授は、医学、特に科学的根拠に基づいた医学の分野における知識のほとんどは人間の経験から要約されているため、初心者でも医学書をすべて読み尽くすことができれば、少なくとも理論的な医学の専門家になれると述べています。モデルのトレーニング プロセス中に、すべての医学知識をモデルに注入したいと考えています。

上海交通大学 謝偉迪教授

しかし、医療分野では、プライバシーの問題により、高品質のデータが比較的不足しています。そのため、謝偉迪教授は中国に帰国後、大規模な医療データセットを構築するために彼のチームに加わりました。具体的には:

* PMC-OA データセットを構築するために、160 万の大きな画像とタイトルのペアが PubMed Central から収集されました。

* 227,000 の医療視覚的な質問と回答のペアが PMC-OA から生成され、PMC-VQA が形成されました。

* Rad3D データセットは、Radiopedia 種から収集された 53,000 の症例と 48,000 のマルチ画像キャプションのペアから構築されました。

*PubMub Central (PMC) は、国立バイオテクノロジー情報センターによって作成および維持されている無料の全文データベースで、生物医学および生命科学の分野におけるオープンアクセスの学術論文に特化しています。 

* Radiopaedia は、高品質の放射線学および医用画像の知識を無料で提供し、放射線科医や学生、その他の医療専門家が症例、記事、画像の例を寄稿できる共同のオープン編集プラットフォームです。

モデル構築に関して言えば、氏は主に、チームが開発した医療特有の言語モデルや視覚言語モデルについて紹介しました。例えば、PMC-LLaMA、多言語医療モデルMMedLLaMAなどや、SATなどの一般的なセグメンテーションモデルなどです。

都市複合システムの時空間生成モデリング手法

清華大学電子工学部都市科学コンピューティング研究センターのディン・ジンタオ博士の主な研究方向は、AI主導の生成モデリングと時空間複雑システムの応用です。Ding Jingtao 博士は、都市の複雑なシステム モデリングのための時空間生成 AI に焦点を当てました。

Ding Jingtao 博士は、都市の複雑なシステムのモデリングが現在直面している主な困難は、高次元かつマルチモーダルな時空間データがシステムの規模を支配しており、さまざまな要素間の相互作用が無視できないことであると紹介しました。各システムの配布方法は大きく異なり、汎用的にモジュールなどを構築することは不可能です。

清華大学の丁静濤博士

これに応えて、彼と彼のチームは、複雑な都市システムをモデル化するための時空間生成 AI の探索を開始しました。人流シミュレーションには物理知識に基づく拡散モデルが提案され、システムの回復力予測にはネットワークダイナミクスによって強化された拡散モデルが提案され、一般的な時空間予測にはプロンプト学習によって強化された時空間 GPT が提案されます。

具体的には:

* 歩行者動作シミュレーション モデル SPDiff は、実際の歩行者動作データ セットに基づいており、6.5%-37.2 のパフォーマンス向上と、小さなサンプルでのより優れた一般化能力を達成しています。

* システム復元力予測モデルは、87% (F1 スコア) の予測精度を維持するために、20 (2%) のラベル付きサンプルのみを使用して、拡散モデルに基づいて復元性/非延性システムの観察サンプルを生成します。

* ユニバーサル時空間予測モデル UniST は、20 を超える時空間データ セットと 1 億 3,000 万を超える時空間サンプル ポイントを収集し、プラグイン時空間メモリ ネットワークを通じて効果的な時空間パターンを保存し、移行と一般化を実現するためのプロンプト ベクトルを生成します。

最後に書きます

HyperAI は、科学向け AI の開発に注目した最初のオープンソース コミュニティの 1 つとして、今後も国内外の最先端のイノベーションに注目し、有用な解釈とレポートをすべての人に提供していきます。 、オンラインのライブブロードキャストやオフラインの学術フォーラムも実施しており、研究者向けのコミュニケーションプラットフォームを提供しています。関連する研究に取り組んでいる研究グループは、私たちに論文を投稿したり、最新の研究結果を共有したりすることを歓迎します。