生物学的機能の主な担い手として、数十億年の進化の中で示されたタンパク質の構造と機能の多様性は、創薬や材料科学などの分野の進歩に重要な機会を提供しますが、既存のタンパク質の固有の特性(熱安定性など)も重要です。 )実際のニーズに応えられない場合が多々あります。したがって、研究者はタンパク質の特性を強化するためにタンパク質を最適化することに取り組んでいます。
高価な湿式実験技術に依存する従来のディープミューテーションスキャン(DMS)や指向性進化(DE)と比較して、機械学習ベースの手法は突然変異の影響を迅速に評価でき、効率的なタンパク質の最適化に不可欠です。その中でも、進化情報(Evolution Information)を利用して突然変異の影響を調べる研究アプローチが広く使われています。進化情報を使用すると、タンパク質配列内の特定の位置にアミノ酸が発生する可能性を通じて、突然変異の影響を推測できます。あるアミノ酸が別のアミノ酸に変異する相対確率を計算するために、主流のアプローチでは、何百万ものタンパク質配列で訓練されたタンパク質言語モデル (PLM) を使用して、自己教師ありの方法で進化情報を捕捉します。
ただし、既存の方法では 2 つの重要な側面が見落とされがちです。——第一に、既存の手法では無関係な進化情報を削除できません。進化は生存のニーズを満たすために複数の特性を同時に最適化することであり、第二に、現在の主流の学習目標にはデータセット固有の情報が含まれています。 . 、この情報は現在のトレーニング データに過剰適合されることが多く、新しいタンパク質に対するモデルの汎化能力が制限されます。
これらの課題を解決するために、浙江大学コンピューター科学技術学部、浙江大学国際共同学院、浙江大学杭州国際科学技術イノベーションセンターの陳華軍教授、張強博士らが共同で開発した。タンパク質最適化のための新しいノイズ除去タンパク質言語モデル (DePLM) を提案しました。中心となるのは、タンパク質言語モデルによって捕捉された進化情報 EI を、特徴に関連した情報と無関係な情報の混合物として扱うことです。無関係な情報はターゲット特性の「ノイズ」に似ているため、これらの「ノイズ」は次のように処理する必要があります。排除された。広範な実験により、この研究で提案されたランキングベースのノイズ除去プロセスが、強力な一般化能力を維持しながら、タンパク質の最適化パフォーマンスを大幅に向上させることが示されました。
関連する結果は「DePLM: プロパティ最適化のためのタンパク質言語モデルのノイズ除去」と題され、トップカンファレンスNeurIPS 24に選ばれました。
研究のハイライト:
* DePLM は、PLM に含まれる進化情報を最適化することで、無関係な情報を効果的にフィルタリングし、タンパク質の最適化を向上させることができます。
* この研究は、ノイズ除去拡散フレームワークでランキングベースの順方向プロセスを設計し、拡散プロセスを突然変異の可能性のランキング空間に拡張すると同時に、学習目標を数値誤差の最小化からランキング相関の最大化に変更し、データセットの独立した学習と確実性を促進します。強力な汎化能力
* 広範な実験結果により、DePLM は変異効果の予測において現在の最先端モデルを上回る性能を発揮するだけでなく、新しいタンパク質に対する強力な一般化機能も発揮することが示されています。
用紙のアドレス:
https://neurips.cc/virtual/2024/poster/95517
公式アカウントをフォローし、バックグラウンドで「Denoising Protein Language Model」に返信すると、完全な PDF が表示されます
ProteinGym タンパク質変異データセットのダウンロード:
https://hyper.ai/datasets/32818
オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s
ProteinGym は、217 のデータ セットを含む、深層変異スクリーニング (DMS) 実験の広範なコレクションです。PLM の長さ制限により、研究者らは 1,024 を超える野生型タンパク質を含むデータセットを除外し、最終的に 201 個の DMS データセットを保持しました。 ProteinGym は DMS を 5 つの大まかなカテゴリーに分類しています: 安定性 66、フィットネス 69、発現 16、結合 12、活性 38。
※性能比較実験:研究者らは、データセット内の各変異を 5 つのフォールドの 1 つにランダムに割り当て、5 つのフォールド全体の結果を平均することでモデルのパフォーマンスを評価する、ランダム化相互検証方法を使用しました。
*汎化能力実験:テスト データ セットが与えられると、研究者は最適化目標 (熱安定性など) と一致する最大 40 個のデータ セットをトレーニング データとしてランダムに選択し、トレーニング タンパク質とテスト タンパク質の間の配列類似性が 50% 未満であることを確認してデータを回避します。漏れます。
前述したように、DePLM の核心は、タンパク質言語モデル PLM によってキャプチャされた進化情報 EI を、特徴に関連した情報と無関係な情報の混合物として扱うことであり、無関係な情報はターゲット特徴の「ノイズ」に似ており、これらの「ノイズ」を除去します。この目標を達成するために、研究者はノイズ除去拡散モデルからインスピレーションを得て、ノイズの多い入力を調整して目的の出力を生成します。
具体的には、研究者らは、以下の図に示すように、ランキング情報に基づいて拡散モデルを拡張して進化情報のノイズを除去するフォワードプロセスを設計しました。下の図の左側では、DePLM は PLM から導出された進化尤度を入力として使用し、特定の属性のノイズ除去尤度を生成します。これは、下の図の中央と右側で、突然変異の影響を予測するために使用されます。 、ノイズ除去モジュールは、一次構造と三次構造を考慮して、特徴エンコーダーを使用してタンパク質の表現を生成し、その後、これらの表現を使用してノイズ除去モジュールを通じてノイズをフィルタリングします。
ノイズ除去拡散モデルには 2 つの主要なプロセスが含まれています。学習する必要がある順拡散プロセスと逆ノイズ除去プロセス。順拡散プロセスでは、少量のノイズが真の値に徐々に追加され、逆ノイズ除去プロセスでは蓄積されたノイズを徐々に除去することで真の値を復元することを学習します。
ただし、これらのモデルをタンパク質の最適化における変異確率のノイズ除去に適用する場合、主な課題が 2 つあります。まず、実際のプロパティ値と実験測定値との関係は、実験手法の多様性、したがってノイズ除去の制限に起因する非線形性を示すことがよくあります。予測値と観測値の差を最小限に抑えることのみに依存すると、モデルが特定のデータセットに過剰適合する可能性があり、それによってモデルの汎化能力が低下する可能性があります。第二に、従来のノイズ除去とは異なり、研究者は蓄積されたノイズが収束することを必要とします。 。
これらの課題に対処するために、研究者らはランクベースのノイズ除去拡散プロセスを提案しました。以下の図に示すように、ランキングの相関関係を最大化することに重点が置かれています。以下の図の左側では、DePLM のトレーニングには、順方向破損プロセスと学習された逆方向ノイズ除去プロセスという 2 つの主要なステップが含まれます。
ノイズを追加するステップでは、研究者らはソート アルゴリズムを使用して、プロパティ固有の尤度のランキングから進化の尤度のランキングに移行する軌跡を生成し、DePLM はこれを逆のプロセスでシミュレートするようにトレーニングされました。下の図の右側では、研究者らは、進化の尤度から特性固有の尤度への変換中のスピアマン係数の変化を示しています。
最後に、データセットに依存しない学習と強力なモデル一般化機能を実現するために、研究者らは、特徴量のランキング空間で拡散プロセスを実行し、数値誤差を最小限に抑えるという従来の目的をランキング相関の最大化に置き換えました。
パフォーマンス評価: 進化情報と実験データを組み合わせる利点の検証
まず、タンパク質工学タスクにおける DePLM のパフォーマンスを評価するために、研究者らは、ゼロからトレーニングされた 4 つのタンパク質シーケンス エンコーダー (CNN、ResNet、LSTM、および Transformer)、5 つの自己トレーニングされた教師ありモデル (OHE、ファインESM-1v、ESM-MSA、Tranception、および ProteinNPT の調整されたバージョン)。
結果は以下の表に示されており、最良の結果と次善の結果がそれぞれ太字と下線で示されています。全体、DePLM はベースライン モデルを上回り、タンパク質工学タスクにおいて進化情報と実験データを組み合わせる利点が確認されました。
ESM-MSAとTranceptionは、多重配列アラインメント(MSA)の導入により、ESM-1vよりも強力な進化情報を示すことは注目に値します。研究者らは、それらの結果を比較することにより、高品質の進化情報が大幅に向上していることを実証しました。微調整後。ただし、これらの改善を行ったとしても、パフォーマンスは依然として DePLM のレベルに達していません。研究者らはまた、DePLM は ProteinNPT よりも優れており、提案されたノイズ除去トレーニング プロセスの有効性が強調されています。
汎化能力評価:無関係な要因の影響を排除し、パフォーマンスを向上させる
次に、DePLM の汎化能力をさらに評価するために、研究者らは DePLM を 4 つの自己教師ありベースライン (ESM-1v、ESM-2、および TranceptEVE)、2 つの構造ベースのベースライン (ESM-IF および ProteinMPNN)、および 3 つの教師ありベースライン ( CNN、ESM-1v、および ESM-2 の微調整バージョン)を比較します。
結果を以下の表に示します。表では、最良の結果と次善の結果がそれぞれ太字でマークされ、下線が付けられています。DePLM は一貫してすべてのベースライン モデルを上回っています。これは、フィルタリングされていない進化情報のみに依存するモデルの欠点をさらに示しており、複数のターゲットを同時に最適化することでターゲットの特性を薄める傾向があります。 DePLM は、外部要因の影響を排除することで、パフォーマンスを大幅に向上させます。
さらに、ベースライン モデル ESM1v (FT) および ESM2 (FT) は、予測スコアと実験スコアの差を最小限に抑えるようにトレーニングされており、DePLM よりもはるかに悪いパフォーマンスを示します。この結果は次のことを示していますランキング空間でモデルを最適化すると、特定のデータセットからのバイアスが軽減され、一般化が向上します。さらに、研究者らは、タンパク質の構造情報が安定性と結合に寄与し、進化情報が適応性と活性特性を強化することを観察しました。
要約すると、多くの実験結果は次のことを示しています。DePLM は、変異効果の予測において現在の最先端モデルを上回る性能を発揮するだけでなく、新しいタンパク質に対する強力な一般化機能も実証します。
タンパク質大規模言語モデルは、タンパク質の構造、機能、相互作用を正確に予測する機能を備えており、タンパク質の配列のパターンと構造を学習することで、タンパク質の機能と形態を予測できる、生物学における AI テクノロジーの最先端の応用を表しています。 、新薬の開発、病気の治療、基礎的な生物学的研究は非常に重要です。
この有望な新興分野に直面して、浙江大学のチームは近年懸命に研究を続け、多くの革新的な科学研究成果を達成した。
2023 年 3 月、Chen Huajun 教授、Zhang Qiang 博士と彼らの AI Intersection Center 研究チームは、タンパク質言語の事前トレーニング モデルを開発しました。このモデルに関する関連研究は、「即時学習によるマルチレベルタンパク質構造の事前トレーニング」と題されています。このトピックは、2023 年の機械学習表現に関する ICLR 国際会議で発表されました。 ICLR カンファレンスは、チューリング賞受賞者の Yoshua Bengio 氏と Yann LeCun 氏の 2 人が率いるディープラーニング分野のトップカンファレンスの 1 つであることは言及する価値があります。
この研究において、研究チームは世界で初めてタンパク質指向の即時学習メカニズムを提案し、PromptProtein モデルを構築しました。タンパク質の第 1、第 3、および第 4 レベルの構造情報をモデルに注入するために、3 つの事前トレーニング タスクが設計されました。構造情報を柔軟に使用するために、研究者らは、自然言語処理のプロンプト技術にヒントを得て、プロンプトガイド付きの事前トレーニングおよび微調整フレームワークを提案しました。タンパク質機能予測タスクとタンパク質工学タスクに関する実験結果は、提案された方法が従来のモデルよりも優れたパフォーマンスを示すことを示しています。
2024 年までに、チームの研究はさらに進歩しました。 PLM はアミノ酸配列の理解には優れているが、人間の言語は理解できないという課題に対処するために、浙江大学のChen HuajunとZhang Qiangのチームは、知識命令を使用してタンパク質言語と人間の言語を調整するInstructProteinモデルを提案しました。これは、タンパク質言語と人間の言語の間の双方向の生成能力を調査し、2つの言語間のギャップを効果的に橋渡しします。そして、生物学的配列を大規模な言語モデルに統合する能力への統合を実証します。
この研究は「InstructProtein: 知識指導による人間とタンパク質の言語の調整」と題され、ACL 2024 メインカンファレンスに採択されました。多数の双方向プロテインテキスト生成タスクに関する実験では、InstructProtein が既存の最先端の LLM よりも優れていることが示されています。
クリックして詳細レポートを表示: ACL2024 メインカンファレンスに選ばれました InstructProtein: 知識命令を使用したタンパク質言語と人間の言語の調整
用紙のアドレス:
https://arxiv.org/abs/2310.03269
実際、これらの記事はチームが行っている作業の 1 つの側面にすぎません。報道によると、浙江大学のAIインターセクションセンターの研究者らは、大規模なタンパク質または分子言語モデルを使用して、現実世界のセンサー信号、タンパク質、人間の言語を組み合わせて、iBioFoundryやiChemFoundryなどの科学実験ロボットを駆動する方法を実現したいと考えているという。 . 言語と知覚の間のつながりを構築する。
将来的には、研究成果をさらに産業化し、新薬の研究開発や生命・健康分野において、より価値ある探索と支援を提供していきたいと考えています。
参考文献: