中国科学院のLuo Xiaozhou氏のチームは、酵素反応速度パラメータを高精度で予測するための大規模モデルと機械学習であるUniKPフレームワークを提案した

特色图像

著者: 李宝珠

編集者:三陽

中国科学院深セン先進技術研究所のLuo Xiaozhou氏のチームは、酵素速度論パラメータ予測フレームワーク(UniKP)に基づいて、さまざまな酵素速度論パラメータを予測することを提案した。

ご存知のとおり、生物の代謝はさまざまな化学反応によって行われます。これらの反応をインビトロで行う場合、通常、高温、高圧、強酸、強アルカリなどの厳しい条件が必要となります。

しかし、生体では、主に重要な有機触媒である酵素のおかげで、極めて温和な条件下で効率的に代謝反応を行うことができます。

酵素の特性 (高い触媒効率、強い特異性、穏やかな操作条件など) は、高校の生物を通じて高得点の知識ポイントとして、誰の記憶にも深く刻み込まれているかもしれません。さらに重要なことは、酵素は多くの人間の病気と密接に関係しており、診断や治療にも使用できることです。長い間、人々は酵素分子の構造と機能を詳しく研究してきましたが、同時に酵素反応に影響を与える要因も探求し続けてきました。

酵素反応の速度と、さまざまな要因が酵素反応の速度に影響を与えるメカニズムを研究する科学は、「酵素反応速度論」と呼ばれます。研究では、特定の反応における酵素の触媒効率は、通常、酵素速度論パラメーターによって測定されます。

酵素反応の速度論的パラメーターには、酵素代謝回転数 k が含まれます。 、ミカエリス定数 Kメートル  と触媒効率 k /Kメートル  et al.らは、現在主にパラメータ測定に湿式実験に依存していますが、このプロセスには時間と費用がかかり、実験的に測定された酵素速度論パラメータのデータベースが比較的小さくなり、データの不足により下流システムの生物学と代謝の開発が制限されます。工学博士。

これを考慮して、中国科学院深セン先進技術研究所のLuo Xiaozhou氏のチームは、事前トレーニングされた大規模言語モデルと機械学習モデルに基づく酵素反応速度論パラメータ予測フレームワーク(UniKP)を提案した。

このフレームワークは、酵素のアミノ酸配列と基質の構造情報が与えられるだけで、多くの異なる酵素速度論パラメータの予測を達成できます。さらに、研究チームは環境要因をさらに考慮し、酵素速度論パラメータのより正確な予測を達成するために、UniKPに基づく2層フレームワークEF-UniKPを提案しました。

研究結果はNature Communications誌に掲載されました

論文リンク:
https://www.nature.com/articles/s41467-023-44113-1
GitHub リンク:
https://github.com/Luo-SynBioLab/UniKP

公開アカウントをフォローし、「UniKP」に返信して論文全文をダウンロードしてください

モデル値を検証するための代表的なデータセット

研究チームは、UniKP のパフォーマンスと価値を検証するために 4 つの代表的なデータセットを選択しました。

1 つ目は DLKcat データ セットです。研究者らは、851 種の生物由来の 7,822 個の固有のタンパク質配列と 2,672 個の固有の基質を含む 16,838 個のサンプルをスクリーニングしました。データセットは、9:1 の比率に従ってトレーニング セットとテスト セットに分割されます。

これに pH と温度のデータセットが続きます。pH データセットには、261 の固有の酵素配列と 331 の固有の基質からなる 636 のサンプルが含まれており、温度データセットには、243 の固有の酵素配列と 302 の固有の基質からなる 572 のサンプルが含まれています。データセットは、8:2 の比率に従ってトレーニング セットとテスト セットに分割されます。

3 番目はミカエリス定数 (Kメートル) データセット、酵素配列、基質分子フィンガープリント、対応する K を含む 11,722 個のサンプルで構成されています。メートル  価値。データセットは、8:2 の比率に従ってトレーニング セットとテスト セットに分割されます。

4人目はkさん/Kメートル  データセット、910 の酵素配列、基質構造、およびそれらに対応する k が含まれています。/Kメートル  値のサンプル。

2 つの主要コンポーネント: プレゼンテーション モジュール + 機械学習モジュール

研究チームが提案した UniKP は、特定の酵素配列と基質構造に基づいて k の予測を向上させることができます。 、Kメートル  そしてk /Kメートル  正確さ。 UniKP フレームワークは、表現モジュールと機械学習モジュールという 2 つの主要なコンポーネントで構成されます。

表現モジュールの機能は、複雑な酵素と基質の情報を、機械学習モデルが理解して処理できるベクトル表現に変換することです。これにより、後続の機械学習モジュールが予測と分析を実行できるようになります。


このうち、酵素配列表現モジュール (Enzyme sequencepresentation module) は、事前学習済み言語モデル ProtT5-XL-UniRef50 を使用して酵素情報をエンコードし、このモデルと平均プーリングを通じて各アミノ酸を 1,024 次元のベクトルに変換します。 (平均プーリングにより平均化)処理され、最終的に酵素全体の配列情報を表す 1,024 次元のベクトルが生成されます(上図参照)。

基質構造表現モジュールは、事前トレーニング済み言語モデル SMILES Transformer モデルを使用して基質情報をエンコードします。基板構造は SMILES 形式に変換され、事前トレーニングされた SMILES コンバーターによって 1,024 次元のベクトルが生成されます。最後の層と最後から 2 番目の層の最初の出力が平均化され、最大プールされて、最終的に 1,024 次元のベクトルが生成されます。 . 基板の構造情報を表す次元ベクトル (上の図に示すように)。

機械学習モジュールの場合、研究チームは、16 の異なる機械学習モデルと、畳み込みニューラル ネットワークとリカレント ニューラル ネットワークという 2 つの代表的な深層学習モデルを比較しました。

結果は、統合モデルが優れたパフォーマンスを示し、特にランダム フォレストと追加ツリーが他のモデルよりも大幅に優れており、極端なランダム ツリーが最高のパフォーマンスを示しました (R²=0.65)。上の図に示すように、機械学習モデルは接続表現ベクトルを入力として受け取り、予測された k を生成します。 、Kメートル  またはk /Kメートル  価値。

さらに、研究者らは環境要因を考慮して最適化された予測フレームワークを生成し、pH と温度の情報をカバーする 2 つのデータセットでそれを検証しました (上図)。

最後に、UniKP は、さまざまな再重み付け方法を通じてサンプルの重み分布を調整し、高価値の予測タスクに対して最適化された予測結果を生成します (上の図を参照)。

2層フレームワーク - EF-UniKP

次の図に示すように、EF-UniKP には 2 層フレームワークとして、ベース層とメタ層が含まれています。

EF-UniKP アーキテクチャ

基本層には、UniKP と改訂 UniKP という 2 つの独立したモデルが含まれています。 UniKP はタンパク質と基質の接続表現ベクトルを入力として受け取りますが、改訂版 UniKP は入力として pH または温度の値と組み合わせたタンパク質と基質の接続表現ベクトルを使用します。

メタレイヤーは、UniKP および改訂された UniKP からの予測 k を使用する線形回帰モデルで構成されます。  最終的な k を予測するための値  価値。

R²値は20%より高く、EF-UniKPが完全勝利

k社の研究チーム  UniKP フレームワークは、16,838 サンプルを含む DLKcat データセットを使用して予測タスクで検証されました。ランダムに分割された 5 ラウンドのテスト セット検証では、UniKP の R² 値は 0.68 で、DLKcat よりも 20% 高い値です。さらに、テストでは、DLKcat の最高値は UniKP の最低値よりも 16% 低く、UniKP の堅牢性がさらに証明されました。

UniKPインク 予測されるパフォーマンス


その後、研究チームはEF-UniKPを評価するためにpHと温度の情報を網羅する2つのデータセットを作成し、それぞれ8:2の比率でトレーニングセットとテストセットに分割した。

お試しセットでは、EF-UniKP は、UniKP および改訂版 UniKP よりも優れたパフォーマンスを発揮します。pH データセットテストでは、EF-UniKP の R² はそれぞれ 20% および 8% よりも高く、温度データセットテストでは、EF-UniKP の R² はそれぞれ 26% および 2% よりも高くなります。酵素と基質の少なくとも 1 つがトレーニング セットに含まれていないテストでは、EF-UniKP の R² 値は、pH データ セットでは UniKP および改訂 UniKP よりそれぞれ 13% および 10% 高く、温度データでは 16% および 16% 高くなります。 4%をそれぞれ設定します。

EF-UniKP は UniKP および改訂された UniKP よりも優れたパフォーマンスを発揮します

バタフライ モデル: 科学研究と産業を結び付ける

羅小舟氏の研究グループが支援する中国科学院深セン先進技術研究所(以下「深セン高等研究所」)は、中国科学院、深セン市人民政府、中国大学が共同で2006年2月に設立した。香港は 8 つの研究機関で構成されています。

*深セン先進集積技術研究所、中国科学院、香港中文大学

*医用健康工学研究所

* 先端情報デジタル工学研究所

* 生物医工学研究所

* 脳認知脳疾患研究所

* 合成生物学研究所

* 先端材料科学研究所

※カーボンニュートラル技術研究所(準備中)

Luo Xiaozhou 博士は、2019 年にカリフォルニア大学バークレー校で博士研究員としての研究を終了し、中国に帰国し、深セン先進工業大学合成生物学研究所に研究員として正式に加わりました。同年、彼がパートナーの一つとして準備した「センリスバイオ」も深センに正式に設立され、合成バイオテクノロジーの研究開発とさまざまな分野での革新的な応用に焦点を当てた。同社は2022年3月に1億元近くのシリーズA資金調達を完了した。

「科学研究」と「産業」のバランスをとった羅暁州博士の発展路線は、深セン高等研究所の目的と完全に一致しています。報道によると、深セン先進研究所は「0-1-10-∞ バタフライ モデル」を研究しました。これはセンリスバイオでもよく実践されています。

液体ゴム HVR とカンナビノイド CBD が、独立した知的財産権を持つ同じシャーシセルを共有できることを発見した後、センリスは、合成生物学的成分の内部ライブラリーと組み合わせて、以前に開発されたいくつかのプロセス手法を使用して出芽酵母を形質転換しました。6 か月以内に、液体ゴム HVR の生産は商業レベルまで増加しました。

その中で、ルオ・シャオジョウ博士は、センリスの創設者の一人でもある彼の指導者である学者ジェイ・D・キースリング氏と協力し、2019年にカンナビノイドの全生合成経路の開拓に成功し、これが商業化の基礎となった。

Luo Xiaozhou氏は、パイプラインの急速な工業化を達成するには2つの重要な要素があると述べた。一つは、学術と産業界の深い融合です。学術界は、産業界が必要とする化合物の0-1合成経路を効果的に構築します。2つ目は、標準化された生産プロセスとツールです。0-1の学術研究、1-10の工学研究開発、10-無限の産業スケールアップまでの3段階をカバーし、合成生物学の生産ラインを構築し、1-10の研究開発効率を向上させます。

参考文献:
https://www.siat.ac.cn/cyjl2016/202203/t20220330_6416153.html
https://mp.weixin.qq.com/s/QsAqhqIBwYhDfdtY1zJACw