합성생물학의 새로운 획기적인 발견! 중국 과학 아카데미의 Luo Xiaozhou 팀은 ProEnsemble 머신 러닝 프레임워크를 개발했습니다. 이는 진화 경로의 프로모터 조합을 최적화하는 것입니다.

합성생물학 분야에서 연구자들은 다른 유기체의 효소 유전자를 숙주에 도입하여 숙주가 스스로 합성할 수 없는 물질을 생산할 수 있게 하는 새로운 대사 경로를 구축합니다. 이는 이미 입증되었으며 바이오연료, 고부가가치 화학물질, 항암제 등의 화합물 생산에 널리 사용되고 있습니다.
하지만,위에서 언급한 대사 경로의 진화는 순조롭지 않으며, 중요한 제한 요인 중 하나는 유전자 상호작용 효과입니다.
유전학자 다니엘 바인라이히는 유전적 상호작용이 개별 돌연변이의 알려진 효과와 유사할 때, 결합된 돌연변이는 "예상치 못한 결과"를 초래할 수 있다고 말한 적이 있습니다. 구체적으로, 상위 유전자는 특정 유전자의 기능적 발현을 억제할 수 있으며, 이로 인해 대사 경로를 최적화하는 데 도움이 되는 일부 유전자 돌연변이가 기능하지 못하게 되어 대사 경로의 진화에 불확실성이 초래됩니다.
자연 조건에서는 유전자 상호작용의 존재로 인해 한 효소의 약간의 변형이 다른 효소가 대사 경로의 발달을 방해할 수 있으며, 이로 인해 대사 기능의 향상이나 새로운 기능의 발견까지 더 오랜 시간이 걸릴 수 있습니다.따라서 수천 년간의 자연 진화가 요구하는 효과를 더 짧은 시간과 더 적은 반복으로 어떻게 빠르게 달성할 수 있는가는 이 분야 연구에서 항상 어려운 문제였습니다.
위의 문제를 해결하기 위해 중국과학원 선전선진기술연구소 합성연구소의 뤄샤오저우 연구팀은 자동화된 대형 시설 플랫폼 기술을 사용하여 제어 가능한 진화 궤적을 결정하고 대사 경로의 여러 핵심 유전자의 자동적이고 동기적 진화를 달성했습니다.동시에, ProEnsemble 머신 러닝 프레임워크를 결합하여 프로모터 조합을 최적화하고, 진화 경로에서 유전자 상호작용의 영향을 완화하고, 효율적인 범용 섀시를 생성합니다.
연구 하이라이트:
* 자동화와 머신 러닝의 장점을 통합하여 섀시 개발 속도와 효율성을 높이고, R&D 주기를 단축하며 비용을 절감합니다.
* 생물학적 지능형 제조 분야에 최첨단 기술 경로와 새로운 솔루션을 제공합니다.

서류 주소:
https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202306935
공식 계정을 팔로우하고 "대사 경로"에 답글을 달면 전체 PDF를 받을 수 있습니다.
자동화 플랫폼은 대사 경로의 동기적 진화를 가속화합니다.

본 연구에서는 나린제닌을 예로 들어 경로 병목 현상 설계와 해결 전략을 제안했습니다.
첫 번째 단계에서는 자동화된 대규모 시설 플랫폼 기술을 사용하여 나린제닌 합성과 관련된 유전자가 낮은 수준(낮은 복제 수 배경)으로 발현되도록 하여 나린제닌 합성을 위한 인공적 대사 병목 현상을 구축했습니다.
두 번째 단계에서는 후보 돌연변이체 4CL-11C1과 CHS-9H9를 선별하여 원래 돌연변이체와 비슷한 수준의 나린제닌을 생산하여 나린제닌 경로의 병목 현상을 제거했습니다.
세 번째 단계에서는 인공지능을 이용한 프로모터 엔지니어링을 통해 단일 유전자 돌연변이체를 원래 경로로 다시 배치하고 대사 흐름을 균형 있게 조정합니다.
우리의 연구 결과는 명확한 궤적의 범위 내에서 인위적인 병목 현상 생성 및 해결 전략이 대사 경로의 효율적인 진화를 가능하게 할 수 있음을 보여주며, 상호작용 효과가 경로 진화의 경계를 제한할 수 있음을 다시 한번 확인시켜 줍니다.
또한, 나린제닌의 핵심 유전자에 해당하는 3가지 효소의 지향성 진화는 대사 경로의 불균형을 유도할 수 있습니다. 이를 위해 연구진은 머신 러닝 프레임워크인 ProEnsemble을 사용하여 진화 경로의 프로모터 조합을 최적화하고, 각 경로에서 효소의 발현을 더욱 최적화하고, 나린제닌 생산을 증가시켰습니다.
데이터 세트: 과거 공개 데이터 검토
데이터 세트 1:연구진은 문헌에서 광범위한 동적 범위를 가진 42개의 보고된 프로모터를 선별하였고, 마지막으로 강도에 상당한 차이가 있는 12개의 프로모터를 선별하여 이를 고강도, 중강도, 저강도의 세 범주로 나누었습니다.

PT7 프로모터는 양성 프로모터이고, PBAD 프로모터는 음성 프로모터입니다.
데이터 세트 2:연구진은 Al3+ 신호 검출법을 사용하여 스크리닝하여 높은 나린제닌 농도를 생성하는 약 1,000개의 돌연변이체로부터 균형 잡힌 데이터 세트를 수집했습니다. 이후, Al3+ 신호가 0.2보다 높은 돌연변이체 108개를 고수율 대표자로 선정하고, Al3+ 신호가 0.2보다 낮은 샘플 50개를 무작위로 선정하여 총 158개의 돌연변이체를 선정했습니다. 그 중 Top1 NAR1.0 균주의 나린제닌 생성량은 대조군에 비해 4.44배 높았다.
모델 아키텍처: ProEnsemble 최적화 프로모터 조합
연구진은 ProEnsemble이라는 프로모터 조합 예측 프레임워크를 제안했는데, 이는 서로 다른 프로모터 조합과 나린제닌 생성 간의 관계를 확립하는 것을 목표로 합니다. 즉, 12가지 유형의 프로모터를 인코딩하고 해당 출력이 나린제닌 생성입니다.

구체적으로, 158개의 돌연변이를 포함하는 위 데이터 세트에 대해 10배 교차 검증을 수행하여 13개의 기존 예측 변수의 평균 제곱근 오차(RMSE)를 평가했습니다.
이후, 순방향 모델 선택을 통해 오차가 가장 작은 예측 변수들을 차례로 통합하고, RMSE가 가장 작은 통합 모델을 최종 예측 모델로 선택합니다.가장 좋은 모델은 그래디언트 부스팅 회귀 모델, 릿지 회귀 모델, 그래디언트 부스팅을 결합한 것입니다.
연구 결과에 따르면 ProEnsemble 모델이 예측한 상위 5개 균주의 나린제닌 생산량은 700mg/L 이상으로, 무작위 표본 추출(960개 시료에서 고수율 균주 5개) 방식보다 효율적이고 정확했습니다.
그러나 데이터 세트의 불균형한 분포로 인해 모델의 예측 능력이 제한될 수 있으며, 그 결과 상위 5개 균주의 수확량이 NAR1.0 균주의 수확량을 넘지 못할 수 있습니다.
모델 최적화: 모델 성능 향상을 위한 데이터의 균형 잡힌 분배
연구진은 1,500개의 클론을 추가로 사용하여 훈련 세트를 확장하고 나린제닌 함량이 400, 500, 600, 700, 800mg/L 이상인 데이터 세트를 사용하여 모델을 최적화했습니다.

마지막으로, 농도가 600mg/L 이상인 27개의 데이터 세트를 초기 데이터 세트에 추가한 후, 피어슨 상관 계수(PCC)가 0.74에서 0.82로 증가하면서 모델이 가장 좋은 성능을 보였습니다. 이는 모델 성능을 향상시키는 데 있어 데이터 세트의 균형 잡힌 분포가 중요함을 보여줍니다.

연구진은 다양한 균주에서 나린제닌 생산을 테스트한 결과, 2라운드에서 예측한 상위 5개 균주가 모두 효율적으로 나린제닌을 합성할 수 있다는 것을 발견했습니다. NAR2.0의 최고 수율은 1.21 g/L로 NAR1.0보다 16% 더 높습니다.프로모터 최적화가 없는 초기 구조보다 5.16배 더 높습니다.
랜덤 프로모터 라이브러리에서 수율이 1 g/L 미만인 균주가 99.11% 이상인 점은 주목할 만합니다. 이는 ProEnsemble 통합 모델이 고수율 균주를 발굴할 수 있는 잠재력이 있음을 나타냅니다.
실험 결론: 범용 섀시는 플라보노이드를 효율적으로 합성할 수 있습니다.

본 연구에서 제안한 계획의 실현 가능성을 더욱 검증하기 위해 연구진은 나린제닌 섀시를 통해 제니스테인, 사쿠라틴, 헤스페리딘과 같은 플라보노이드의 효율적인 합성을 달성했습니다. 제니스테인의 수율은 72.32 mg/L, 사쿠라틴의 수율은 223.39 mg/L, 헤스페리딘의 수율은 82.50 mg/L였다. 각 플라보노이드의 수율은 문헌에 보고된 수준보다 높았으며, 이는 고부가가치 화합물 생산에 대한 새로운 아이디어를 제공합니다.
중국의 합성생물학 산업은 아직 초기 단계에 있습니다.
최근 들어 유럽, 미국 등 선진국에서는 합성생물학 및 관련 제조산업의 발전을 촉진하기 위한 조치를 취해 왔습니다. 중국 정부 역시 이 분야에 큰 중요성을 두고 있으며, 합성생물학을 우리나라의 산업 변혁을 이끌 파괴적 기술로 분류했습니다. 이와 밀접하게 관련된 대사 경로의 최적화는 점점 더 많은 연구자들에게 관심 있는 주제가 되었습니다.
AI와 빅데이터 시대를 맞아 머신러닝 기술의 자동화된 학습, 유연성, 강력한 데이터 처리 능력은 대사 경로 최적화를 위한 새로운 방향을 제시하고 합성생물학에 새로운 활력을 불어넣었습니다.
사실, 중국에는 이미 이 신흥 산업에 헌신하는 선구자들이 있었습니다. 본 논문의 저자인 뤄샤오저우는 2019년에 합성생물학 기술 연구개발에 주력하는 회사인 센루이스 바이오텍(선전)유한공사를 설립했습니다. 이 회사는 빅데이터와 AI 기술을 생합성에 적용하고, 대학의 과학 연구 자원을 지원받아 다수의 고부가가치 제품 파이프라인을 신속하게 개발하고 구현했으며, 합성생물학 생산 공정에서 발생하는 여러 어려움을 성공적으로 극복하고 세분화된 범주에 대한 섀시 셀 구축을 완료했습니다.
또한, 올해 1월, 뤄샤오저우 박사 연구팀은 사전 학습된 대규모 언어 모델과 머신 러닝 모델을 기반으로 하는 효소 반응 속도론적 매개변수 예측 프레임워크 EF-UniKP를 제안하여 효소 반응 속도론적 매개변수의 정확한 예측과 특정 효소의 효율적인 마이닝을 달성했습니다. 연구팀은 현재 센루이스 바이오텍(선전) 주식회사와 추가 협력을 추진 중인 것으로 알려졌으며, 이를 통해 이 기술의 구현과 전환이 촉진될 것으로 기대됩니다. (자세한 내용은 여기를 클릭하세요: 중국 과학 아카데미의 Luo Xiaozhou 팀은 고정밀로 효소 반응 속도 매개변수를 예측하기 위한 대규모 모델 + 머신 러닝인 UniKP 프레임워크를 제안했습니다)
뤄샤오저우 박사는 '산학융합'을 완벽하게 구현했다고 할 수 있다. 그는 합성생물학에 대한 연구를 심화시키는 동시에, 업계에서 우수한 성과를 창출하기 위해 노력하고 있습니다. 세계 합성생물학 산업의 급속한 발전에 직면하여, 뤄샤오저우는 우리나라가 합성생물학 산업에서 초기 성과를 거두었지만 아직은 초기 단계에 있다고 말했습니다. 따라서 핵심기술의 연구개발을 더욱 강화하고, 과학연구성과와 산업실무의 심층적 융합을 보장하는 것이 우리나라와 선진국 간 합성생물학 산업의 격차를 줄이는 데 핵심입니다.
참고문헌:
1.http://cn.chinagate.cn/news/2018-11/16/content_72414672_2.htm
2.https://new.qq.com/rain/a/20230918A03TY700
3.https://sheitc.sh.gov.cn/dsxxjyzl/20231129/7321884958b14651abeac020f7802f8b.html
4.https://www.develpress.com/?p=4755
5.http://www.isynbio.org/news-detail.aspx?detail=8217&parm=1772
6.https://www.cn-healthcare.com/article/20221028/content-574249.html
7.https://isynbio.siat.ac.cn/view.php?id=814