HyperAI超神経

ACL2024代表に選出!浙江大学が初の海洋言語モデル「OceanGPT」を発表、水中身体化知能を実現

特色图像

大規模言語モデル (LLM) を含む AI ツールは、科学のパラダイムを徐々に変えています。Nature により、2024 年に注目に値する科学事象の 1 つとしてリストに挙げられています。テキストデータマイニング分野の中核ツールとして、大きな言語モデルは、大量のテキスト データから重要な科学情報、パターン、傾向を抽出できます。これにより、さまざまな分野への理解が深まり、科学研究のプロセス、意思決定、複雑な問題解決に対する強力なサポートと洞察が得られます。

例えば、生物医学分野、Microsoft は、PubMed データベース内の数百万の関連科学論文に基づいて言語モデル BioGPT をトレーニングしました。このモデルは、専門用語、遺伝子名、タンパク質配列などの複雑な概念を理解するのに優れています。非専門的なモデルと比較して、BioGPT は生物医学的な質問に対する回答を迅速かつ正確に生成します。テキストマイニング、実験レポートの作成、分子設計、文献レビューの作成などのタスクを完了します。

同じく、海洋科学の分野では、大規模な言語モデルを使用して大量の海洋科学テキストデータを分析し、海洋の特性、変化パターン、資源の開発と利用などの関連理論と手法を理解することは、地球規模の気候制御、気象パターンの形成、生物多様性の維持、および将来の経済発展にとって極めて重要です。人類の。

しかし、多次元・多スケールの海洋データは規模が複雑で種類も豊富なため、従来のデータ処理手法では対応が困難です。同時に、海洋科学は多くの分野と分野をカバーしており、各分野と分野には独自のデータ属性とモデルがあるため、LLM は専門知識をより豊富に蓄えておく必要があります。しかし、現在の主流の LLM は依然として海洋学者の特定のニーズを完全には満たすことができません。

この点について、浙江大学コンピューター科学技術学部の Zhang Ningyu 氏と Chen Huajun 氏のチームは、海洋分野における初の大規模言語モデルである OceanGPT を提案しました。このモデルは、海洋科学のさまざまなタスクの処理に優れており、海洋学者の指示に基づいて質問に答えることができます。海洋学のベンチマーク OCEANBENCH の評価を通じて、OceanGPT は海洋科学タスクにおける高度な専門知識を実証するだけでなく、海洋工学における予備的な具体化されたインテリジェンス機能も取得します。
OceanGPT プロジェクトのアドレス:

http://oceangpt.zjukg.cn/

また、海洋データの入手困難を軽減するために、研究者らはまた、マルチエージェントのコラボレーションに基づく海洋科学指導生成フレームワーク DoInstruct も提案しました。その中で、各エージェントは特定の分野(科学と研究、資源と開発、生態と環境など)の専門家とみなされ、該当分野のデータ生成を担当します。

この研究のタイトルは「OceanGPT: 海洋科学タスクのための大規模言語モデル」です。最近、自然言語処理のトップカンファレンスである ACL 2024 (CCF-A カンファレンス) のメインカンファレンス論文として採択されました。

研究のハイライト:
* 既存のオープンソースの大規模言語モデルと比較して、海洋分野の大規模言語モデルである OceanGPT は、より専門的な海洋タスクを処理できます

* 海洋科学指導生成フレームワーク DoInstruct は柔軟性が高く、最適化してさまざまな科学分野 (天文学など) に適用できます。

用紙のアドレス:

https://arxiv.org/abs/2310.02031

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

データセット: 67,633 件の海洋科学文書からの高品質主導

研究者らは、近年の海洋科学分野の文書67,633件をオリジナルのコーパスとして収集した。多様性を確保するために、LLM が海洋分野の発展の歴史を理解するのに役立ついくつかの歴史的に重要な文書も選択されました。記事はさまざまなチャネルから提供され、さまざまな研究の観点と方法をカバーしました。

データの品質と一貫性を確保するには、研究者らは正規表現を使用して、グラフィック、表、ヘッダー、フッター、ページ番号、URL、引用符をフィルタリングし、無関係なスペース、改行、その他の非テキスト文字を削除し、特殊文字、絵文字記号、文字化けを置換または削除しました。処理された文書は、海洋物理学、海洋化学、海洋生物学、地質学、水文学など、海洋科学のさまざまな分野をカバーしています。

続いて、研究者らはハッシュ アルゴリズムを使用してデータの重複を排除しました。これにより、モデルの事前トレーニング中の過学習のリスクが軽減され、汎化能力が向上します。

海洋科学コーパスには複数の分野とトピックが含まれているため、これらのデータを効果的にシミュレーションして取得するために、各トピックには独自のデータ特性とパターンがあります。研究者は、ドメイン命令生成フレームワークである DoInstruct を提案しました。
※海洋テーマ:海洋学の専門家の専門知識に基づいて、海洋科学データを手作業で比較的独立した5つの海洋テーマ(科学と研究、資源と開発、生態と環境、技術と工学、生命、文化、その他)に分類します。

高品質・専門的・多様な海洋指導データを生成できるDoInstruct

ドメイン命令生成フレームワーク DoInstruct は、マルチエージェントのコラボレーションに基づいており、海洋データの生成を効果的に実現できます。

DoInstruct フレームワーク

上の図に示すように、DoInstruct フレームワークでは、研究者らは 3 種類のエージェントの役割を設計しました。Evolving Data Synthesis Agent (ジェネレーターとしての Evolving Agent)、Fine-tuned Literature Reading Agent (Literature Extractor としての Fine-tuned Agent)、および Audit Agent (Inspector としてのエージェント)。各エージェントは特定の分野 (主題) の専門家とみなされ、対応するデータの生成を担当します。

進化するデータ合成エージェント: ジェネレーターとしての進化するエージェント

シード データを構築するために、研究者らは海洋科学の豊富な背景を持つ数十人のアノテーターを雇用し、各アノテーターがいくつかのトピックを担当し、海洋トピックごとにいくつかの代表的な例を手動で作成しました。

次に、研究者は大規模な言語モデルを使用して既存のデータを模倣し、多数の同様の例を生成します。これらの例はすべてアノテーターによって手動で検査されます。最終的なシード命令データ セットには、5 つのメイン カテゴリ、500 を超えるサブカテゴリ、および 10,000 を超えるデータ サンプルが含まれています。

左: 進化型データ合成エージェント

シード指示データセットを取得した後、研究者はそこからサンプルを選択し、エージェント (gpt-3.5-turbo) を呼び出して、選択したサンプルを進化させます。

具体的には、左図に示すように、種子サンプルの背景知識を補完・拡張し、種子データに含まれる知識点を詳細に分析・強化・改善することを複数回繰り返すことで、研究者が迅速に知識を拡充することができます。既存のシード データ セットと情報の幅と深さを拡張します。

文献エクストラクターとしての微調整エージェント: 文献エクストラクターとしての微調整エージェント

微調整された文献閲覧エージェント

研究者らは、専門家が注釈を付けたコーパスを収集し、BM25 アルゴリズムを使用して大規模な海洋コーパスから高品質の文を取得し、両方を高品質の候補サンプル (高品質候補) として扱いました。同時に、研究者らはシード命令データセットを使用して gpt-3.5-turbo を微調整し、微調整されたエージェントを膨大な海洋コーパスから高品質のテキストを抽出できる文書抽出ツールとみなしました。

データ品質を保証する監査エージェント: ルール制約のあるインスペクターとしてのエージェント

データ品質を保証する監査エージェント

生成された多数の指示に対して、研究者らは構文、セマンティクス、および海洋フィールドの基本定義をルール制約として使用し、プロンプトを通じてエージェントを構築し、生成された海洋指示データがより高品質であることを保証するためにデータをフィルタリングしました。

データ品質をさらに保証するために、研究者らは生成された命令データセットから 10% サンプルをランダムに選択し、訓練を受けたドメイン専門家ボランティアにこれらのサンプルに潜在的なエラーがあるかどうかを検証するよう依頼しました。最終データの IAA (アノテーター間合意) スコアは 0.82 でした。 . 研究目的を満たします。

以下の図に示すように、DoInstruct フレームワークは、複数のエージェントを使用して海洋科学データ セットを迅速に構築でき、150,000 を超える命令 (データ進化、データ抽出) に拡張できます。さらに、データの専門性と正確性も保証されています。

最終的な命令データセットの統計

下図に示すように、研究者は知識の質(Quality)、専門知識(Expertise)、多様性(Diversity)の観点からDoInstructのデータ生成効果を測定します。

さまざまなエージェントのパフォーマンス分析

進化するジェネレーター エージェントが海洋データの豊富さを効果的に強化できることがわかります。抽出エージェントはコンテンツの専門性を向上させることができ、検査エージェントは生成されたデータの品質を向上させることができます。要約すると、海洋コマンドの生成にはマルチエージェントの協力が効果的です。

LLaMA-2 に基づいた OceanGPT は海洋タスクでより優れたパフォーマンスを発揮します

指示データを取得した後、研究者らは 6 つの Nvidia A800 GPU を使用して、LLaMA-2 に基づく OceanGPT の 7 日間の事前トレーニング (Pre-training) を実施しました。

OceanGPTモデルの全体的な枠組み

事前トレーニングされたモデル OceanGPT を取得した後、研究者らは LoRA メソッドを使用してモデルを微調整しました。海洋学タスクにおける大規模言語モデル OceanGPT の能力を評価するために、研究者らは、OceanGPT との比較のために、LLaMA-2 (Llama-2-7b-chat-hf)、Vicuna-1.5、および ChatGLM2-6B の 3 つのモデルを選択しました。 。

比較を行う前に、研究者らはベンチマーク テスト OCEANBENCH を設計しました。下の図に示すように、このベンチマークには分析、判断などの 15 の海洋関連タスクが含まれています。

OCEANBENCH 詳細統計

以下の図に示すように、研究者は、海洋分野の 15 のサブタスクについて、タスク レベルの 3 つのベースライン モデルと OceanGPT のパフォーマンスを比較しました。その結果、自動評価と人間による評価の両方において、OceanGPT が他のモデルよりも優れたパフォーマンスを示したことがわかりました。

海洋タスクレベルの結果 左: GPT-4 自動評価、右: 人間による評価

上図に示すように、研究者らは OCEANBENCH 海洋科学ミッションにおける OceanGPT モデルの評価結果を示しました。OceanGPT は、ほとんどのタスクにおいて他のベースライン言語モデルよりも優れたパフォーマンスを発揮します。

OCEANBENCH海洋科学ミッションにおけるOceanGPTの評価結果

核汚染から水中ロボットまで、海洋における OceanGPT の二重の勝利

海洋分野における OceanGPT の応用可能性を証明するために、研究者は海洋科学と海洋工学の観点から OceanGPT をテストしました。

放射性核種研究のための新しいツール: OceanGPT はより深い専門知識を備えています

海洋科学については、研究者らは海洋環境の核汚染の問題に焦点を当て、この課題における OceanGPT と Vicuna-7b-1.5 のパフォーマンスを比較しました。

海洋科学ミッションのケーススタディ: 表面および界面の化学と主要な放射性核種の毒物学的影響に関する研究をどのように実施するか

上の図に示されているように、OceanGPT は放射性核種の研究内容を記述する際に、より高いレベルの知識を示しています。テキストの内容は明確に構造化され、整理されているだけでなく、実験計画、データ分析、リスク評価、取り扱いガイドラインなど、放射性核種研究のあらゆる側面を網羅しています。

対照的に、Vicuna-7b-1.5 は明確で論理的ですが、放射性核種に関するより深く具体的な内容が欠けています。

要約すると、OceanGPT には知識の専門性、品質、豊富さの点で利点があります。

インテリジェントな海洋工学: OceanGPT により、水中ロボットの正確な制御が可能になります

海洋工学は、海洋操業の持続可能性と安全性の側面にとって極めて重要です。 OceanGPT と外界との対話を促進するために、研究者はロボット コード データを合成し、これらのマシン コード命令をトレーニング データに統合して、コードまたはコンソール コマンドを通じてモデルの機能を評価しました。

OceanGPTは水中ロボットを制御します

上の図に示すように、OceanGPT はコードまたはコンソール コマンドを通じて水中ロボットに指示を与えることができるため、水中ロボットは(人間の指示に基づいて)複雑なタスクを実行できます。これは、OceanGPT が予備的な具体化されたインテリジェンス機能を取得し、高度な機能を提供していることを示しています。海洋モデル。複雑なロボット制御と計画タスクを実行する道を開きます。

OceanGPT が再び「進化」、海洋科学がインテリジェンスの時代を到来

浙江大学のZhang Ningyu教授とChen Huajun教授が率いる研究チームは、Bi Zhen、Xue Yida、Ou Yixin、Ji Daxiong、Zheng Guozhouらを結集させ、海洋分野初の大規模言語モデルであるOceanGPTの構築に成功した。海洋分野におけるインテリジェンスのプロセスが重要な一歩を踏み出したことを示した, OceanGPTは海洋分野における重要なマイルストーンとなっています。

しかし、OceanGPT の開発はこれで終わりではなく、研究の深化と技術の進歩により、OceanGPT は、最適化とアップグレードの新たなラウンドを開始しました。

浙江大学の知識エンジン研究所である ZJUKG からの最近のレポートによると、論文の筆頭著者である Bi Zhen 氏は、OceanGPT における一連の主要な開発を発表しました。

* まず第一に、OceanGPT-14B と OceanGPT-2B の 2 つの新しいバージョンが正式にリリースされます。

* 次に、中国語と英語のバイリンガル機能間の効率的な対話を実現するために、Qwen2 中国語ベースに基づく OceanGPT が追加されました。

* 同時に、チームは 20,000 スケールの海洋大規模モデル指導データセットである OceanInstruct もオープンソース化し、海洋科学研究者に貴重なリソースのサポートを提供しました。

OceanInstruct データセットのダウンロードアドレス:

https://go.hyper.ai/3QuLq

* 最後に、OceanGPT-V マルチモーダル バージョンがリリースされました。これは、ソナー データや科学写真などのマルチモーダル海洋情報の処理をサポートするだけでなく、OceanGPT-V のオンライン デモンストレーションも提供し、新しい視点と可能性を開きます。海洋科学探査モデルは間もなくオープンソースになると報告されています。

モデルアップデート後の機能変化を分析するため、OceanGPT-14Bを例に挙げると、以下の図に示すように、研究者らは「東シナ海の海底アンビリカルケーブルの建設計画を作成してください」という中国側の質問を出した。

結果は、OceanGPT によって生成されたコンテンツがより豊富で、より多くのレベルをカバーし、海洋科学知識を理解して生成する能力がより強力であることを示しています。

同時に、OceanGPT の英語生成機能を検証するために、次の図に示すように、研究者らは「東シナ海の海底地形と地形の特徴を説明してください」という英語の入力を行いました。

OceanGPTによって生成された記述は、詳細さ、包括性、専門性、地域区分の点で比較的優れており、海底地形と地形に関するより正確で詳細な情報を提供できることが判明しました。

さらに、Bi Zhen 氏は、次の図に示すように、OceanGPT の開発計画も示しました。

OceanGPTの計画

2024年8月から12月にかけて、OceanGPT-V+ のバイリンガル マルチモーダル バージョンが発売されます。彼らは、大規模なコーパスに基づいて、より大規模なモデル (30B、70B など) を使用して OceanGPT をトレーニングし、海洋科学のより未知の世界を探索するために新しいデータと新しいタスクを追加することで OceanGPT を維持し続けます。

OceanGPT がさらなる驚きと画期的な進歩をもたらし、海洋科学研究に新たな章を開くことを楽しみにしています。

参考文献:
https://blog.csdn.net/gitblog_00055/article/details/138176998
https://mp.weixin.qq.com/s/TZuVvZfr1DsRGUXsxc3cGQ

召喚命令

HyperAI (hyper.ai) は、データサイエンス分野における中国最大の検索エンジンであり、科学のための AI の最新の研究結果に長年重点を置き、トップジャーナルに掲載された 100 以上の学術論文を解釈してきました。

AI for Science に関する研究と探求を行っている研究グループや研究チームから、最新の研究結果を共有したり、詳細な解釈の記事を提出したり、AI4S のライブ ブロードキャスト コラムに参加したりするための連絡を歓迎します。AI4S を促進するその他の方法は次のとおりです。一緒に探検するのを待っています!