HyperAI超神経

700万件の質問と回答データをカバーし、GPT-4に匹敵する専門的な機能を備えた上海AIラボがChemlLMをリリース

特色图像

人工知能テクノロジーの急速な発展に伴い、大規模言語モデル (LLM) は、その強力な自然言語処理機能により、生命科学、海洋学、材料化学などの科学研究で広く使用されています。 LLM は、分子特性の予測、分子生成、実験プロトコルの設計などの化学関連のタスクでは良好なパフォーマンスを発揮しますが、さまざまな化学の下流タスクを処理する場合はパフォーマンスが低下します。

その理由は、化学知識を言語モデルに直接統合すると、主に次の 3 つの大きな課題に直面するためです。第一に、ほとんどの化学情報と知識は構造化データベースに保存されており、これらのデータを直接使用して LLM をトレーニングすると、モデルの自然言語処理能力が損なわれ、モデルの対話能力と論理的推論能力が低下する可能性があります。第二に、化学情報学では、分子はSMILES などの特殊な記号で表されます。しかし、この種のデータは自然言語の仕様に準拠していないことが多いため、従来の言語モデルではそのような記号を正しく理解して生成することが困難であり、最後に、多くの種類の化学データとタスクを設計する必要があります。柔軟性があり、さまざまな化学作業に一般化できるトレーニングです。このプロセスは非常に困難です。

これに応えて、上海人工知能研究所は化学大言語モデル ChemLLM をリリースしました。 ChemLLM は、スムーズな会話対話を通じて化学分野のさまざまなタスクを実行することに優れており、コア タスクでは GPT-4 に匹敵するパフォーマンスを示し、一般的なシナリオでは同様のサイズの LLM に匹敵するパフォーマンスを示します。 ChemLLM は化学研究の探索に新たな道を開き、構造化された化学知識を会話システムに統合する研究チームの手法は、さまざまな科学分野で LLM を開発するための新しい基準を設定します。

関連する研究は「ChemLLM: A Chemical Large Language Model」というタイトルで、arXiv で公開されており、その結果はオープンソース化されており、無料で商用利用できます。現在、HyperAI 公式 Web サイト (hyper.ai) では、「大規模化学モデル ChemLLM-7B のワンクリック展開 - チャット」を開始しています。ステップバイステップのチュートリアルについては、記事の最後を参照してください。

研究のハイライト:

* 大規模化学データセット ChemData と、ChemPref-10K、C-MHChem データセット、および ChemBench4K 化学能力評価ベンチマーク データセットの中国語版および英語版データセットを作成し、オープンソース化する

* 4,100 の多肢選択式の質問と 9 つの特定のタスクを含む大規模な化学ベンチマークである ChemBench を作成してオープンソースにする

* 定量的および定性的評価テストを通じて、ChemLLM は優れた化学専門性と多用途性を実証しました。

用紙のアドレス:
https://arxiv.org/abs/2402.06852

化学大規模モデル ChemLLM-7B チャット チュートリアルが hyper.ai で開始され、リンクをクリックしてワンクリックでデプロイできます。
https://go.hyper.ai/r31KV

ChemData 化学タスク データ セットのダウンロード アドレス:
https://go.hyper.ai/zMJEl

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s

ChemData データセット: 700 万件の質問と回答データをカバーする大規模な化学データセット

研究者らは、PubChem、ChEMBL、ChEBI、ZINC などを含む多数のオンライン リポジトリから化学データを収集し、これに基づいて ChemLLM を微調整するための大規模なデータ セット ChemData を作成しました。

ChemData データセットは、テンプレートベースの命令構築方法を利用して、構造化化学データを LLM のトレーニングに適した自然な会話形式に変換します。このデータ セットには、指示を微調整するための 700 万件の質問と回答のデータが含まれており、化学分野の幅広い知識をカバーしています。質問と回答のデータ カテゴリは、分子、反応、その他の化学関連のタスク カテゴリと一致しています。

で、分子関連のタスクには、名前変換、Caption2Mol、Mol2Caption、および分子特性予測が含まれます。主な目的は、言語モデルの化学分子の認識を調整することです。

反応関連のタスクには、化学反応のさまざまな側面が含まれます。逆合成 (Retro Synthesis)、製品予測 (Product Prediction)、収率予測 (Yield Prediction)、温度予測 (Temperature Prediction)、および溶媒予測 (Solvent Prediction) が含まれます。明確に分類可能なデータを除いて、他のすべてのデータは特定のタイプのタスクにグループ化されるため、化学空間全体に対する ChemLLM の理解が深まります。次の図は、これら 3 種類のタスクに含まれるデータの割合を示しています。

ChemData データセットの構成比

ChemLLM モデル アーキテクチャ: InternLM2-Base-7B に基づく、2 段階の命令微調整

化学大規模言語モデル ChemLLM は、InternLM2-Base-7B モデル トレーニングに基づいた 2 段階の命令微調整方法を通じてトレーニングされており、さまざまな化学機能を実現するだけでなく、完全な自然言語機能も保持します。

以下の図に示すように、研究チームは第 1 段階でマルチコーパス (Hugging Face から収集された 170 万の質問と回答のペアを含む包括的なコーパス) を使用して、モデルの一般的な言語機能を向上させ、第 1 段階で得られたモデルを結合しました。 InternLM2-Chat-7B という名前のステージ。

ChemLLM の 2 段階の命令微調整プロセスの概略図

第 2 フェーズでは、研究チームは ChemData と Multi-Corpus のハイブリッド データセットを使用してモデルを微調整しました。ChemData はモデルの化学知識を強化するために使用され、Multi-Corpus はモデルの一般的な機能を維持するために使用されました。 2 段階の指導の微調整トレーニングを経て、化学分野における ChemLLM の汎用性が向上しました。

ChemBench ベンチマーク: 評価結果に対する言語モデルの出力スタイルの影響を軽減する

既存の大規模化学モデルベンチマークは質疑応答形式で提示されることが多く、評価基準としてBLEUやROUGEが使用されています。ただし、このタイプの評価は言語モデルの出力スタイルの影響を受けやすいため、科学的事実の正しさを重視するシナリオには適していません。

これに基づいて、研究チームは、現在の主流の評価セットである MMLU および C-Eval に類似した化学ベンチマーク テスト ChemBench を構築しました。 ChemBench には、化学分子と反応に関する 9 つのタスクが含まれており、ChemData データセット内のタスクと同じです。さらに、ChemBench には 4,100 の多肢選択問題も含まれており、各質問は正解に対応しており、言語モデルの出力スタイルが評価結果に与える影響を最小限に抑えることを目的としています。

このベンチマークは OpenCompass オープン ソース プロジェクトで開始されたことに言及する価値があります。以下の図は、ChemBench ベンチマークの 9 つのタスクの分布を示しています。

ChemBench ベンチマーク テストにおける 9 つのタスクの分布

研究結果: ChemLLM のモデル化学の専門知識は GPT-4 と同等であり、同様の規模の一般的な LLM よりも大幅に優れています。

研究チームは、化学ラージ言語モデル ChemLLM のパフォーマンスを定量的および定性的側面の両方から評価しました。定量的評価には化学能力と一般的能力の評価が含まれ、定性的評価は主に化学関連のNLP(自然言語処理)タスクのパフォーマンスによって評価されます。

化学能力評価では、ChemBench は、中核となる化学機能を評価するためのベンチマークとして機能し、9 つの異なるタスクを通じてモデルの専門知識をテストします。以下の図に示すように、ChemLLM は、同様の規模の一般的な大規模言語モデル (LLM) よりも大幅に優れており、総合的に GPT-3.5 を上回っています。 InternLM2-Chat-7B と比較して、ChemLLM の化学能力は大幅に向上しており、化学能力トレーニングの第 2 段階が大きな効果を発揮していることがわかります。 GPT-4 と比較すると、ChemLLM は 9 タスク中 6 タスクで GPT-4 よりも高いスコアを示しています。

ChemLLM 化学性能評価スコア

一般的な能力評価では、研究チームは、MMLU、C-Eval、GSM8K、C-MHChem の 4 つのデータセットを使用して ChemLLM を評価しました。このうち、MMLUはSTEM(科学、技術、工学、数学)、人文科学、社会科学などの学際的な科目を対象とし、学際的な知識を幅広く評価するベンチマークテストです。C-Evalは複数の科目を対象とした総合的な中国のベンチマークテストです。 . GSM8K は、言語モデルの数学的能力をテストするために使用されるベンチマーク テストであり、問題を解くために 2 ~ 8 ステップの基本的な数学的演算が必要です。モデルの概念 データ セットには主に中学および高校の化学テストが含まれます。

以下の図に示すように、英語の MMLU と中国語の C-Eval ベンチマークでは、ChemLLM の精度はそれぞれ 65.6 と 64.1 であり、より幅広い分野および多言語のシナリオで良好にパフォーマンスを発揮することを示しています。

GSM8K データセットのテストでは、ChemLLM の精度は 67.2 に達しました。この結果は、化学データを微調整することでモデルの推論能力がある程度向上することを示しています。

C-MHChem データセットテストでは、ChemLLM の正解率は 76.4 で GPT-4 を上回り、中国の中学校および高校試験における ChemLLM の能力が実証されました。

ChemLLM の一般的なパフォーマンス評価スコア

定性的評価では、研究チームは、化学詩の作成、テキスト抽出、化学文献の翻訳、倫理的回答、その他の化学関連の NLP (自然言語処理) タスクを通じて ChemLLM を評価しました。結果は、ChemLLM がさまざまな NLP タスクにおいて化学知識のより深い理解と創造的な応用を達成できることを示しています。次の図は、いくつかの NLP タスクにおける ChemLLM のパフォーマンスを示しています。

ChemLLM 化学詩の作成
ChemLLM 化学情報の抽出

上記の研究結果は、ChemLLM がリアルタイム対話を通じてさまざまな化学タスクを処理でき、その化学能力は GPT-4 に匹敵し、他の分野でも優れたパフォーマンスを発揮することを示しています。


現在、ChemLLM は新しいラウンドのアップグレードを完了しており、RAG 機能に接続されています。この機能は、化学文献やオンライン検索の詳細なマイニングと理解をサポートするだけでなく、論文の内容について議論するための ChemLLM との直接対話もサポートします。 ChemLLM の開発は科学分野における LLM の前例となり、AI 時代の化学研究のプロセスをさらに加速します。

HyperAI公式サイト(hyper.ai)にて「化学大型モデルChemLLM-7B-chatのワンクリック導入」を開始しました。以下は段階的なチュートリアルとエフェクトの表示です。ぜひエディターを使って探索してください。

大規模化学モデルのワンクリック展開 ChemLLM-7B-chat

デモの実行

  1. hyper.ai にログインし、「チュートリアル」ページで「プルコ ケミカルの大型モデル ChemLLM-7B チャット デモのワンクリック展開」を選択し、「このチュートリアルをオンラインで実行する」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 右下隅の「次へ: コンピューティング能力の選択」をクリックします。

4. ページがジャンプしたら、「NVIDIA GeForce RTX 4090」を選択し、「次へ: 確認」をクリックします。以下の招待リンクを使用してサインアップした新規ユーザーは、4 時間の RTX 4090 + 5 時間の CPU を無料で入手できます。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):
https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

5. [続行] をクリックし、リソースが割り当てられるまで待ちます。最初のクローンには約 2 分かかります。ステータスが「実行中」に変わったら、「APIアドレス」横のジャンプ矢印をクリックすると「プルコケミカル大型モデルChemLLM-7Bのワンクリック導入-チャットデモ」のページにジャンプします。 APIアドレスアクセス機能を利用するには実名認証が必要となりますのでご注意ください。

10 分以上「リソースを割り当てています」状態が続く場合は、コンテナを停止して再起動してみてください。再起動しても問題が解決しない場合は、公式 Web サイトのプラットフォーム カスタマー サービスにお問い合わせください。

エフェクトのプレビュー

医薬品開発における倫理的ジレンマを試す

参考文献:
1. https://mp.weixin.qq.com/s/C_aFYbzLlQySmTDarWWRkA
2. https://mp.weixin.qq.com/s/b9T9LxAkv4gnJMfBs2AW5Q