合成生物学の新たなブレークスルー!中国科学院のLuo Xiaozhou氏のチームは、進化経路のプロモーターの組み合わせを最適化するProEnsemble機械学習フレームワークを開発した。

合成生物学の分野では、研究者は他の生物の酵素遺伝子を特定の宿主体に導入して、宿主自身が合成できない物質を生成できるようにする新しい代謝経路を構築します。これは証明されており、次のような化合物の生産に広く使用されています。バイオ燃料、高価な化学物質、抗がん剤など。
しかし、上述した代謝経路の進化過程は平坦ではなく、重要な制限因子は遺伝子エピスタシスである。
遺伝学者ダニエル・ワインライヒはかつて、遺伝子のエピスタティック効果は単一の突然変異の既知の効果と似ているが、突然変異の組み合わせは「予期せぬ驚き」を生み出すと述べた。具体的には、エピスタティック遺伝子は特定の遺伝子の機能発現を阻害する可能性があり、これにより代謝経路の最適化に役立つ一部の遺伝子変異が無効になり、代謝経路の進化に不確実性が生じます。
自然界では、遺伝子エピスタシス効果の存在により、ある酵素の軽度の修飾が別の酵素の代謝経路の発達を妨げる可能性があり、その結果、代謝機能の強化または新しい機能の発見のサイクルが長くなります。したがって、何千年にもわたる自然進化によって必要とされる効果を、より短い時間とより少ない反復で迅速に達成する方法は、この分野の研究において常に困難でした。
上記の問題に対応して、中国科学院深セン先進技術研究所のSyneso Luo Xiaozhouチームは、自動化された大規模施設プラットフォーム技術を使用して、制御可能な進化軌道を決定し、複数の重要な遺伝子の自動かつ同期的な進化を実現しました。代謝経路。同時に、ProEnsemble 機械学習フレームワークを組み合わせてプロモーターの組み合わせを最適化し、進化経路における遺伝子エピスタシスの影響を軽減し、効率的なユニバーサルシャーシを作成します。
研究のハイライト:
* 自動化と機械学習の利点を統合して、シャーシ開発の速度と効率を向上させ、研究開発サイクルを短縮し、コストを削減します。
* バイオインテリジェント製造分野に最先端の技術ルートと新しいソリューションを提供します。

用紙のアドレス:
https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202306935
公式アカウントをフォローし、バックグラウンドで「Metabolic Pathways」に返信すると、完全な PDF が表示されます
自動化されたプラットフォームは代謝経路の同時進化を加速します

この研究では、ナリンゲニンを例として、経路のボトルネックの設計と排除戦略を提案しています。
第一段階では、ナリンゲニン合成に関連する遺伝子の低レベル発現(低コピー数バックグラウンド)を可能にする自動化された大規模施設プラットフォーム技術を搭載し、ナリンゲニン合成に人為的な代謝ボトルネックを作り出します。
第 2 段階では、ナリンゲニン経路のボトルネックを解消するために、候補変異体 4CL-11C1 および CHS-9H9 を元の変異体と同等のナリンゲニン生産量についてスクリーニングしました。
第 3 段階では、人工知能を介したプロモーター操作を通じて、個々の遺伝子の変異体が元の経路に戻され、代謝の流れのバランスが保たれます。
研究結果は、明確な軌道の範囲内で、人為的なボトルネックの作成と除去戦略が代謝経路の効率的な進化を達成できることを示し、さらにエピスタティック効果が経路進化の境界を制限する可能性があることを確認しました。
さらに、ナリンゲニンの重要な遺伝子に対応する 3 つの酵素の指向性進化は、代謝経路の不均衡を誘発する可能性があります。この点において、研究者らは機械学習フレームワーク ProEnsemble を使用して、進化経路のプロモーターの組み合わせを最適化し、各経路の酵素の発現をさらに最適化し、ナリンゲニンの生産を増加させました。
データセット: 過去の公開データのフィルタリング
データセット 1:研究者らは、文献から広いダイナミックレンジを持つ報告された42のプロモーターをスクリーニングし、最終的に強度が大きく異なる12のプロモーターをスクリーニングして、それらを高強度、中強度、低強度の3つのカテゴリーに分類しました。

PT7 プロモーターはポジティブ プロモーター、PBAD プロモーターはネガティブ プロモーターです。
データセット 2:研究者らは、Al3+ シグナル検出によってスクリーニングされた、高濃度のナリンゲニンを生成できる約 1,000 個の変異体から平衡データセットを収集しました。続いて、Al3+ シグナルが 0.2 より高い 108 個の変異体が高収量代表として選択され、Al3+ シグナルが 0.2 より低い 50 個のサンプルがランダムに選択され、合計 158 個の変異体になりました。このうち、Top1 NAR1.0株のナリンゲニン生産量は対照群の4.44倍であった。
モデルアーキテクチャ: ProEnsemble に最適化されたプロモーターの組み合わせ
研究者らは、さまざまなプロモーターの組み合わせとナリンゲニンの生産との関係を確立することを目的とした、ProEnsemble と呼ばれるプロモーターの組み合わせ予測フレームワークを提案しました。

具体的には、158 個の変異体を含む上記のデータセットに対して 10 倍交差検証を実行することにより、13 個の従来の予測子の二乗平均平方根誤差 (RMSE) を評価しました。
その後、順方向モデル選択により、誤差が最小の予測子が順に統合され、RMSE が最小の統合モデルが最終的な予測モデルとして選択されます。最適なモデルは、Gradient Boosting Regressor、Ridge Regressor、および Gradient Boosting を組み合わせたものです。
研究結果は、ProEnsemble モデルが、トップ 5 株のナリンゲニン生産量を 700 mg/L を超えると予測することを示しており、これはランダム サンプリングよりも効率的かつ正確です (960 サンプルには 5 つの高生産株が含まれています)。
ただし、このデータセットの不均衡な分布によりモデルの予測能力が制限され、上位 5 株のいずれも NAR1.0 株以上の生産を行わなくなる可能性があります。
モデルの最適化: 分散データのバランスをとり、モデルのパフォーマンスを向上させます。
研究者らはさらに 1,500 クローンからトレーニング セットを拡張し、ナリンゲニン含有量が 400、500、600、700、800 mg/L を超えるデータ セットを使用してモデルを最適化しました。

最後に、600 mg/L を超える 27 個のデータ セットを初期データ セットに追加した後、モデルのパフォーマンスが最も良くなり、ピアソン相関係数 (PCC) が 0.74 から 0.82 に増加しました。その結果は、データ セットのバランスの取れた分布が重要であることを示しました。モデルの性能。

研究者らは、さまざまな菌株でナリンゲニンの生産をテストした結果、第 2 ラウンドで予測された上位 5 菌株はすべてナリンゲニンを効率的に合成できることを発見しました。最高収量 NAR2.0 は 1.21 g/L で、これは NAR1.0 よりも 16% 高いです。プロモーター最適化なしの最初の構築物よりも 5.16 倍高かった。
ランダム プロモーター ライブラリーで 99.11% を超える株の生産量が 1g/L 未満であることは注目に値します。これは、ProEnsemble 統合モデルが高収量株をマイニングできる可能性があることを示しています。
実験結果: ユニバーサルシャーシはフラボノイドを効率的に合成できる

この研究で提案された解決策の実現可能性をさらに検証するために、研究者らはナリンゲニンシャーシを介してゲニステイン、サクラン、ヘスペレチンなどのフラボノイドの効率的な合成を達成し、ゲニステインの収量は 72.32 mg/L に達しました。サクランの収量は 223.39 です。 mg/L、ヘスペレチンの収量は 82.50 mg/L であり、各フラボノイドの収量は文献で報告されているレベルよりも高く、高付加価値化合物の製造に新しいアイデアを提供します。
中国の合成生物学産業はまだ初期段階にある
近年、欧米などの先進国は合成生物学および関連製造業の発展を促進する措置を講じており、中国政府もこの分野を重視しており、合成生物学技術を我が国を牽引する破壊的技術として挙げています。これに密接に関係する代謝経路の最適化が、ますます多くの研究者の注目を集めています。
AI とビッグデータの時代の文脈において、機械学習テクノロジーの自動学習、柔軟性、強力なデータ処理機能は、代謝経路の最適化に対する新しい思考の方向性を提供し、合成生物学に新たな活力をもたらします。
実際、この記事の著者である羅暁州氏は、2019 年に合成バイオテクノロジーの研究開発を専門とする会社、Senris Biotechnology (Shenzhen) Co., Ltd. を設立しました。同社は、ビッグデータと AI テクノロジーを生合成に適用し、大学の科学研究リソースに依存して、いくつかの高付加価値製品パイプラインを迅速に開発および実装し、合成生物学の生産プロセスにおける多くの問題を正常に克服し、完全なセグメンテーションを実現しています。シャーシセル構造。
さらに、今年1月、Luo Xiaozhou博士のチームは、酵素速度論パラメータ予測フレームワークEF-UniKPも提案しました。このフレームワークは、正確な予測と特定の酵素速度論パラメータを実現するために、事前にトレーニングされた大規模言語モデルと機械学習モデルに基づいています。酵素の効率的な採掘。研究チームは現在、この技術の実装と変革を促進することが期待されるSenris Biotechnology (Shenzhen) Co., Ltd.とさらなる協力を行っていると理解されています。 (クリックして詳細を表示: 中国科学院の羅暁舟氏のチームは、酵素の反応速度パラメータを高精度で予測するための大規模モデルと機械学習である UniKP フレームワークを提案しました)
羅暁州博士は、合成生物学の研究に深く取り組むと同時に、産業界への優れた成果の導入も推進し、「産業と研究の統合」を完成させたと言えます。世界的な合成生物学産業の急成長に直面して、羅暁舟氏は、我が国は合成生物学産業において初期の成果を上げているものの、まだ初期段階にあると述べた。したがって、コア技術の研究開発をさらに強化し、科学研究の成果と産業実践の徹底的な統合を確保することが、合成生物学業界における我が国と先進国との格差を縮める鍵となります。
参考文献:
1.http://cn.chinagate.cn/news/2018-11/16/content_72414672_2.htm
2.https://new.qq.com/rain/a/20230918A03TY700
3.https://sheitc.sh.gov.cn/dsxxjyzl/20231129/7321884958b14651abeac020f7802f8b.html
4.https://www.develpress.com/?p=4755
5.http://www.isynbio.org/news-detail.aspx?detail=8217&parm=1772
6.https://www.cn-healthcare.com/article/20221028/content-574249.html
7.https://isynbio.siat.ac.cn/view.php?id=814