중국과학원 Luo Xiaozhou 연구팀은 효소 반응 속도 매개변수를 높은 정확도로 예측하기 위한 대규모 모델 + 머신 러닝인 UniKP 프레임워크를 제안했습니다.

저자: 이보주
편집자: 산양
중국과학원 선전선진기술연구소의 뤄샤오저우 연구팀은 다양한 효소 반응 속도론적 매개변수를 예측하기 위해 효소 반응 속도론적 매개변수 예측 프레임워크(UniKP)를 제안했습니다.
우리 모두가 알고 있듯이, 생물체의 신진대사는 다양한 화학 반응을 통해 이루어집니다. 이러한 반응이 시험관 내에서 수행되는 경우, 일반적으로 고온, 고압, 강산, 강알칼리와 같은 혹독한 조건이 필요합니다.
그러나 생물체 내에서는 극히 온화한 조건에서도 대사 반응이 효율적으로 진행될 수 있는데, 이는 주로 중요한 유기 촉매인 효소 덕분입니다.
고등학교 생물학에서 높은 점수를 받는 지식 포인트인 효소의 특성은 모든 사람의 기억에 깊이 각인되어 있을 것입니다. 높은 촉매 효율성, 강력한 특이성, 온화한 작용 조건 등이 그 예입니다. 더 중요한 것은 효소가 많은 인간 질병과 밀접한 관련이 있으며 진단과 치료에도 사용될 수 있다는 것입니다. 오랫동안 사람들은 효소 반응에 영향을 미치는 요인을 계속 탐구하면서 효소 분자의 구조와 기능에 대한 심층적인 연구를 진행해 왔습니다.
효소 반응 속도와 다양한 요인이 효소 반응 속도에 영향을 미치는 메커니즘을 연구하는 과학을 "효소 반응 속도론"이라고 합니다.연구에서 특정 반응에서 효소의 촉매 효율은 일반적으로 효소 반응 속도론적 매개변수를 통해 측정됩니다.
효소 촉매 반응의 동역학적 매개변수에는 효소 회전수 k가 포함됩니다.고양이 , 미카엘리스 상수 K중 및 촉매 효율 k고양이 / 케이중 현재 매개변수 측정은 주로 습식 실험에 의존하지만, 이 과정은 시간이 많이 걸리고 비용도 많이 들기 때문에 실험적으로 측정된 효소 반응 속도 매개변수의 데이터베이스가 비교적 작습니다. 데이터 부족으로 인해 하류 시스템 생물학 및 대사 공학 분야의 발전이 제한될 것입니다.
이를 고려하여,중국과학원 선전선진기술연구소 합성연구소의 뤄샤오저우 연구팀은 사전 학습된 대규모 언어 모델과 머신 러닝 모델을 기반으로 하는 효소 반응 속도 매개변수 예측 프레임워크(UniKP)를 제안했습니다.
이 프레임워크는 주어진 효소의 아미노산 서열과 기질의 구조적 정보만을 사용하여 다양한 효소 반응 속도론적 매개변수를 예측할 수 있습니다. 또한 연구팀은 환경적 요인을 더욱 고려하여 UniKP를 기반으로 한 이중층 프레임워크 EF-UniKP를 제안하였으며, 이를 통해 효소 반응 속도론적 매개변수를 더욱 정확하게 예측할 수 있었습니다.

논문 링크:
https://www.nature.com/articles/s41467-023-44113-1
GitHub 링크:
https://github.com/Luo-SynBioLab/UniKP
공식 계정을 팔로우하고 "UniKP"라고 답글을 달면 전체 논문을 다운로드할 수 있습니다.
대표 데이터 세트는 모델 값을 검증합니다.
연구팀은 UniKP의 성능과 가치를 검증하기 위해 대표적인 데이터 세트 4개를 선택했습니다.
첫 번째는 DLKcat 데이터 세트입니다.연구진은 851개 생물체에서 7,822개의 고유한 단백질 서열과 2,672개의 고유한 기질을 포함하여 총 16,838개의 샘플을 검사했습니다. 데이터 세트는 9:1의 비율로 훈련 세트와 테스트 세트로 나뉩니다.
다음은 pH 및 온도 데이터 세트입니다.pH 데이터 세트에는 261개의 고유한 효소 시퀀스와 331개의 고유한 기질로 구성된 636개의 샘플이 포함되어 있습니다. 온도 데이터 세트에는 243개의 고유한 효소 서열과 302개의 고유한 기질로 구성된 572개의 샘플이 포함되어 있습니다. 데이터 세트는 8:2의 비율로 훈련 세트와 테스트 세트로 나뉩니다.
세 번째는 미카엘리스 상수(K)입니다.중) 데이터 세트,여기에는 효소 서열, 기질 분자 지문 및 해당 K를 포함한 11,722개의 샘플이 포함됩니다.중 값. 데이터 세트는 8:2의 비율로 훈련 세트와 테스트 세트로 나뉩니다.
네 번째는 k입니다고양이/케이중 데이터 세트,910개의 효소 서열, 기질 구조 및 해당 k를 포함합니다.고양이/케이중 값의 샘플.
두 가지 핵심 구성 요소: 표현 모듈 + 머신 러닝 모듈
연구팀이 제안한 UniKP는 주어진 효소 서열과 기질 구조를 기반으로 k의 예측을 개선할 수 있습니다.고양이 , 케이중 그리고 k고양이 / 케이중 정확성. UniKP 프레임워크는 표현 모듈과 머신 러닝 모듈이라는 두 가지 핵심 구성 요소로 구성됩니다.
표현 모듈의 역할은 복잡한 효소와 기질 정보를 머신 러닝 모델이 이해하고 처리할 수 있는 벡터 표현으로 변환하는 것입니다.이를 통해 후속 머신 러닝 모듈이 예측과 분석을 수행할 수 있습니다.

이 중 효소 서열 표현 모듈은 사전 훈련된 언어 모델 ProtT5-XL-UniRef50을 사용하여 효소 정보를 인코딩합니다. 각 아미노산은 모델을 통해 1,024차원 벡터로 변환되고, 평균 풀링을 통해 평균화 처리되며, 최종적으로 전체 효소의 서열 정보를 나타내는 1,024차원 벡터가 생성됩니다(위 그림 참조).

기판 구조 표현 모듈은 사전 훈련된 언어 모델인 SMILES Transformer 모델을 사용하여 기판의 정보를 인코딩합니다. 기질 구조는 SMILES 포맷으로 변환되고, 사전 학습된 SMILES 변환기를 통해 1,024차원 벡터가 생성됩니다. 마지막 레이어와 두 번째 마지막 레이어의 첫 번째 출력을 평균화하고 최대 풀링을 거쳐 최종적으로 기판의 구조적 정보를 나타내는 1,024차원 벡터를 생성합니다(위 그림 참조).

머신러닝 모듈의 경우,연구팀은 16개의 서로 다른 머신 러닝 모델과 두 개의 대표적인 딥 러닝 모델(합성곱 신경망과 순환 신경망)을 비교했습니다.
결과에 따르면 통합 모델이 더 나은 성능을 보였으며, 특히 랜덤 포레스트와 추가 트리에서 다른 모델보다 상당히 우수한 것으로 나타났으며, 그 중에서도 추가 트리가 가장 좋은 성능을 보였습니다(R²=0.65). 위 그림에서 보여지는 것처럼, 머신 러닝 모델은 연결된 표현 벡터를 입력으로 받아 예측된 k를 생성합니다.고양이 , 케이중 또는 k고양이 / 케이중 값.

또한 연구진은 환경적 요인을 고려하여 최적화된 예측 프레임워크를 생성하고 pH와 온도 정보를 포함하는 두 개의 데이터 세트로 이를 검증했습니다(위 그림 참조).

마지막으로 UniKP는 다양한 가중치 재지정 방법을 통해 샘플 가중치 분포를 조정하여 고가치 예측 작업에 대해 최적화된 예측 결과를 생성합니다(위 그림 참조).
이중 레이어 프레임——EF-UniKP
EF-UniKP는 2계층 프레임워크로서, 다음 그림에서 볼 수 있듯이 기본 계층과 메타 계층으로 구성됩니다.

기본 계층에는 UniKP와 개정된 UniKP라는 두 개의 독립적인 모델이 포함되어 있습니다. UniKP는 단백질과 기질의 연결 표현 벡터를 입력으로 받는 반면, 개정된 UniKP는 단백질과 기질의 연결 표현 벡터를 pH 또는 온도 값과 결합하여 입력으로 사용합니다.
메타 계층은 UniKP와 개정된 UniKP에서 예측된 k를 사용하는 선형 회귀 모델로 구성됩니다.고양이 최종 k를 예측하는 값고양이 값.
R² 값이 20%보다 높으므로 EF-UniKP가 승리합니다.
k의 연구팀고양이 UniKP 프레임워크는 16,838개의 샘플이 포함된 DLKcat 데이터 세트를 사용하여 예측 작업에서 검증되었습니다. 무작위로 나눈 테스트 세트 검증을 5라운드 진행한 결과, UniKP는 0.68의 R² 값을 달성했는데, 이는 DLKcat보다 20% 더 높은 수치입니다. 또한, 실험 결과 DLKcat의 최고값은 UniKP의 최저값보다 16% 낮게 나타나 UniKP의 견고성을 더욱 입증했습니다.

연구팀은 EF-UniKP를 평가하기 위해 pH와 온도 정보를 포함하는 두 개의 데이터 세트를 만들고, 각각 8:2의 비율로 훈련 세트와 테스트 세트로 나누었습니다.
테스트 세트에서,EF-UniKP는 UniKP와 개정된 UniKP보다 성능이 더 좋습니다.pH 데이터 세트 테스트에서 EF-UniKP의 R²는 각각 20%와 8% 더 높습니다. 온도 데이터 세트 테스트에서 EF-UniKP의 R²는 각각 26%와 2% 더 높습니다. 훈련 세트에 효소와 기질 중 하나라도 없는 테스트에서 EF-UniKP의 R² 값은 pH 데이터 세트에서 UniKP 및 개정 UniKP보다 각각 13% 및 10% 더 높았고, 온도 데이터 세트에서는 각각 16% 및 4% 더 높았습니다.

버터플라이 모델: 과학 연구와 산업의 통합
뤄샤오저우 연구팀을 지원하는 중국과학원 산하 선전선진기술연구원(이하 "선전선진연구원")은 2006년 2월 중국과학원, 선전시인민정부, 홍콩중문대학교가 공동으로 설립했습니다. 총 8개 연구기관으로 구성되어 있습니다.
* 중국과학원, 홍콩 중국대학교, 심천 선진집적기술연구소
* 생물의학 및 건강공학 연구소
* 첨단 컴퓨팅 및 디지털 공학 연구소
* 생물의학 및 기술 연구소
* 뇌인지 및 뇌질환 연구소
* 합성생물학연구소
* 첨단재료과학 및 공학 연구소
* 탄소중립기술연구소(예비)
뤄샤오저우 박사는 2019년 캘리포니아 대학교 버클리에서 박사후 연구를 마치고 중국으로 돌아와 심천 선진기술 연구소 합성생물학 연구소에 정식으로 연구원으로 합류했습니다. 같은 해, 그가 파트너 중 한 명으로 참여한 "센루이스 바이오"가 선전에 정식으로 설립되어 합성생물학 기술의 연구 개발과 다양한 분야에서의 혁신적 응용에 주력하고 있습니다. 2022년 3월, 회사는 약 1억 위안 규모의 A라운드 자금 조달을 완료했습니다.
뤄샤오저우 박사의 "과학 연구"와 "산업"의 균형을 이룬 발전 경로는 선전 고등 연구원의 사명과 완벽하게 일치합니다. 서론에 따르면,심천 선진기술연구소는 "0-1-10-∞ 나비 모델"을 탐구했습니다.센루이스 바이오텍에서도 이와 같은 방식이 잘 실행되었습니다.
액상 고무 HVR과 카나비노이드 CBD가 동일한 독립적인 지적 재산 섀시 셀을 공유할 수 있다는 사실을 발견한 후 Senruis는 양조용 효모의 변형을 위해 초기 단계에서 개발된 여러 가지 공정 방법을 내부 합성 생물학적 구성 요소 라이브러리와 결합하여 사용했습니다.액상 고무 HVR의 생산량은 6개월 만에 상업적으로 실행 가능한 수준으로 증가했습니다.
그중에서도 뤄샤오저우 박사는 센루이스 창립자 중 한 명인 제이 D. 키슬링 학술원장과 협력하여 2019년에 칸나비노이드의 생물학적 합성 경로를 성공적으로 개방하여 상용화의 기반을 마련했습니다.
뤄샤오저우는 파이프라인의 신속한 산업화를 달성하는 데는 두 가지 핵심 요소가 있다고 말했습니다.첫째, 학계와 산업계의 긴밀한 통합입니다.학계는 산업계에 필요한 화합물에 대한 0-1 합성 경로를 효과적으로 구축합니다.두 번째는 표준화된 생산 공정과 도구입니다.0~1 학술연구, 1~10 공학연구개발, 10~무제한 산업화 규모확대의 3단계를 망라하여 합성생물학 생산라인을 구축하고 1~10단계의 연구개발 효율성을 높여나갑니다.
참고문헌:
https://www.siat.ac.cn/cyjl2016/202203/t20220330_6416153.html
https://mp.weixin.qq.com/s/QsAqhqIBwYhDfdtY1zJACw