촉매 용량이 3.5배 증가했습니다! 중국과학원 연구팀은 P450 확산 모델을 기반으로 P450 효소 De Novo 설계 방법을 개발했습니다.

시토크롬 P450 효소는 거의 모든 생물체에 널리 존재하며, 생명의 성장과 발달에 있어서 다양한 대사 과정에서 중요한 역할을 합니다. 자연에서 가장 다재다능한 생촉매인 P450 효소는 보고된 951개 이상의 산화환원 반응을 촉매할 수 있을 뿐만 아니라 온화한 조건에서 불활성 탄소-수소 결합을 선택적으로 산화시킬 수도 있습니다.산업용으로는 "범용 촉매"로 알려져 있습니다.
요즘에는 더 나은 성능을 가진 새로운 P450 효소를 설계하기 위해 지향성 진화가 널리 사용되고 있습니다. 그러나 기존 방법은 일반적으로 여러 차례의 무작위 돌연변이 유발과 고처리량 스크리닝이 필요하기 때문에 실제 실험을 수행하거나 컴퓨터 시뮬레이션 계산을 통해 잠재적인 단백질 공간을 자세히 탐색하기 어렵습니다.
딥러닝이 단백질 구조 예측에 있어 놀라운 성과를 거두었지만, 이상적인 기능 설계는 여전히 엄청난 과제로 남아 있습니다. 단백질 기능을 설계할 때, 충분한 고품질 기능 데이터를 수집하고 원하는 기능을 갖춘 시퀀스를 생성하기 위해 복잡한 모델을 훈련하는 것은 어렵습니다.지식 기반 기술과 강력한 딥 러닝 모델을 결합하여 자연 단백질 서열 공간을 확장합니다.이는 새로운 P450 효소를 설계하는 데 적절한 방법일 수 있습니다.
최근 중국과학원 톈진산업생물기술연구소의 장후이펑, 정젠 등 연구진은 P450 효소인 플라보노이드 6-하이드록실화효소(F6H)의 포켓 디자인 원리를 분석했습니다.확산 모델과 포켓 디자인 원리를 기반으로 P450 효소의 새로운 설계 방법인 P450Diffusion을 개발했습니다.관련 연구는 "확산 모델에서 촉매 포켓을 제한하여 시토크롬 P450 효소 설계"라는 제목으로 Research에 게재되었습니다.
이 연구에서는 P450 확산을 기반으로 천연 P450 효소보다 활성이 더 뛰어나고 안정성이 더 높은 새로운 효소를 만들어냈습니다. 천연 플라보노이드 6-하이드록실화효소와 비교했을 때, 새로운 효소의 촉매 용량은 1.3~3.5배 증가했습니다.
연구 하이라이트:
* 본 연구에서는 P450 효소 진화에서 새로운 기능의 기원 메커니즘을 분석하고 P450 효소 기질 결합의 "3점 고정 원리"를 제시했다.
* P450 확산으로 생성된 새로운 효소의 촉매 용량은 1.3~3.5배 증가했습니다.
* 본 연구는 딥러닝 확산 모델의 틀에서 새로운 기능성 P450 효소의 설계를 위한 새로운 아이디어를 제공합니다. 앞으로 이 방법은 생명공학, 산업촉매 등의 분야에서 중요한 역할을 할 것으로 기대되며, 새로운 효소의 개발과 응용을 촉진할 것으로 기대됩니다.

서류 주소:
https://spj.science.org/doi/10.34133/research.0413
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 데이터 세트를 수집하고 인코딩합니다.
연구진은 P450Diffusion을 구축하기 위해 출판된 P450 효소 데이터베이스와 공공 데이터베이스에서 잠재적인 모든 P450 효소를 선별하고 분석했으며, 길이가 560보다 긴 시퀀스를 걸러내고, 226,509개의 시퀀스를 훈련 데이터 세트로 얻었습니다.
이후 연구진은 단백질 서열의 각 아미노산을 8차원 벡터로 인코딩하고, 단백질 서열의 각 배치를 64×1×560×8 벡터로 인코딩하여 훈련 데이터 세트를 인코딩했습니다. 여기서 64는 배치 크기로, 훈련 데이터의 샘플 수와 같습니다. 1은 채널 크기를 나타냅니다. 560은 단백질 서열의 최대 길이를 나타냅니다. 그리고 8은 단백질 서열의 각 아미노산에 대한 VHSE8 인코딩 벡터를 나타냅니다.
단백질 서열이 560자리보다 짧을 경우, 연구자들은 길이가 560자리에 도달할 때까지 간격을 추가했습니다. 이 경우에는 8개의 0으로 구성된 벡터를 간격에 대한 코드로 지정합니다.
모델 아키텍처: P450 확산, P450 효소를 위한 새로운 설계 방법
연구진은 Erigeron breviscapus의 플라보노이드 6-하이드록실화효소(CYP706X1)를 예로 들었습니다. 이 효소는 CYP706X 하위 계열에 속하며, 브레비스카핀 생합성 경로에서 아피게닌을 브레비스카핀으로 전환합니다.
첫 번째,조상 서열 재구성, 역 돌연변이 실험, 점진적 전방 축적 및 결정학적 분석을 통해 연구진은 P450 효소 유전자 기능의 혁신을 담당하는 촉매 포켓을 구성하는 기초 잔류물을 식별했습니다.둘째,연구진은 심층적인 구조 분석을 통해 기능적으로 혁신적인 촉매 포켓의 설계 원리를 밝혔습니다.마침내,이 모델은 촉매 포켓 설계 원리와 이미지 생성에 우수한 성능을 보이는 잡음 제거 확산 확률 모델을 결합하고, 인공 P450 효소 생성 모델인 P450Diffusion을 설계합니다.
1단계: 촉매 포켓을 구성하고 P450 효소 유전자 기능의 혁신을 담당하는 기초 잔류물을 식별합니다.
확인된 CYP706 계열 P450 효소 중에서 CYP706X 하위 계열 P450 효소만이 플라보노이드 기질을 촉매할 수 있었습니다. 이는 P450 효소인 플라본 6-하이드록실화효소(F6H)의 기능이 CYP706X 하위 계열의 조상에서 새롭게 혁신되었을 가능성이 있음을 시사합니다.
F6H 기능을 가진 촉매 포켓 형성의 분자적 메커니즘을 밝히기 위해 연구진은 비기능성 ancXY(CYP706X와 CYP706Y 하위 패밀리의 공통 조상)의 촉매 포켓과 기능적 ancX(CYP706X 하위 패밀리의 공통 조상) 사이의 잔류물 구성의 변화를 분석하기로 제안했습니다. 활성 중심에서 8Å 이내에는 48개 잔류물 중 16개가 다릅니다.
아래 그림 A에서 볼 수 있듯이 ancX와 ancXY의 잔류물은 각각 청록색과 자홍색으로 표시됩니다. 그리고 이 16개 잔류물이 모두 ancX의 해당 잔류물로 대체되면 돌연변이체(ancXY-16이라고 함)는 아래 그림 B에서 볼 수 있듯이 F6H 기능을 획득하게 됩니다.

촉매 포켓 내 잔류물의 위치가 3차원 공간에서 서로 다르다는 점을 감안하면, 모든 잔류물이 기질 인식 및 결합에 크게 기여하는 것은 아닙니다. 따라서 연구진은 역돌연변이 검정(RMA: ancXY-16의 촉매 포켓에 있는 각 잔류물을 조상 유형으로 되돌려 돌연변이 효과를 평가)을 통해 촉매 포켓의 창립 잔류물을 식별하려고 시도했습니다. 연구진은 창립 잔류물을 보다 신속하게 식별하기 위해 점진적으로 ancXY에 중요한 돌연변이를 추가하여 돌연변이체가 F6H 기능을 획득할 때까지 점진적으로 진행성 전방 축적(PFA) 전략을 사용했습니다.
마지막으로, 실험은 5개 아미노산(L220A/I114T/T317A/W123F/L248M)의 돌연변이가 F6H의 ancXY에서 ancX로의 기능적 혁신 과정에서 창시자 역할(창립 잔류물)을 한다는 것을 발견했습니다.
2단계: 기능적 혁신을 통해 촉매 포켓의 설계 원리를 설명합니다.
연구진은 ancXY-5의 아피게닌 결합 모델을 심층적으로 분석하여 기능적 혁신에 관여하는 5가지 기초 잔류물의 잠재적 메커니즘을 더욱 자세히 해석했습니다. 5가지 기본 잔류물의 돌연변이를 바탕으로 볼 때, 촉매 포켓은 "3점 고정" 원리를 따르는 것으로 보입니다.
"3점 고정"은 아피게닌 분자의 3개 허브와의 주요 상호작용을 말합니다.여기에는 다음이 포함됩니다. 아피게닌 분자의 4'-OH(첫 번째 허브)는 T114가 제공하는 수소 결합에 의해 고정되고, 아피게닌의 "B" 고리(두 번째 허브)는 F123과 M248 사이의 π-스태킹 상호 작용에 의해 고정되고, 아피게닌의 7-OH(세 번째 허브)는 CpdI의 철-옥실기와의 수소 결합에 의해 고정됩니다.
이 모델은 기질 아피제닌을 근접 반응 형태(NAC)로 유지하여 아피제닌 반응 부위와 CpdI 철-옥실기 사이의 상대적 방향을 유리한 거리와 각도(3.6Å 및 155°)로 유지함으로써 촉매 과정 동안 아피제닌의 6-수산화 반응을 개시합니다.
연구진은 "3점 고정"이 F6H의 자연적 기능 혁신을 위한 촉매 포켓 설계 원리로 사용될 수 있으며, 이는 원하는 기능을 갖춘 P450 효소를 설계하기 위한 새로운 아이디어를 제공한다고 제안했습니다.
3단계: 촉매 포켓 설계 원리를 이미지 생성에 적합한 잡음 제거 확산 확률 모델과 결합하여 인공 P450 효소 생성 모델인 P450Diffusion을 설계합니다.
연구진은 확산 모델과 F6H 촉매 포켓의 설계 원리를 결합하여 아래 그림에서 볼 수 있듯이 원하는 기능을 갖춘 P450 효소를 처음부터 설계했습니다. 새로운 P450 효소의 설계 과정에는 P450 확산 모델 구축, 시퀀스 생성, 스크리닝 및 실험 검증이 포함됩니다.

P450Diffusion은 주로 사전 학습된 모델과 미세 조정 모델이라는 두 가지 모델로 구성됩니다.
첫 번째,사전 훈련된 P450 시퀀스 확산 모델을 훈련하기 위해 226,509개의 자연 P450 효소 시퀀스가 수집되었습니다.
사전 학습된 모델은 두 개의 하위 프로세스로 구성됩니다. P450 효소 시퀀스의 표현에 가우시안 노이즈를 점진적으로 추가하여 랜덤 노이즈가 될 때까지 진행하는 전방 확산 하위 프로세스입니다. 그리고 무작위 노이즈에서 시작하여 점진적으로 P450 효소 시퀀스 표현의 노이즈를 제거하여 새로운 P450 시퀀스를 생성하는 역방향 생성 하위 프로세스입니다. 150,547회의 학습을 거친 후, 사전 학습된 확산 모델은 20%에서 50%에 이르는 자연 시퀀스와 유사한 다양한 시퀀스를 생성할 수 있습니다.
둘째,사전 훈련된 확산 모델은 CYP706X 하위 패밀리와 상당히 유사한 19,202개의 P450 효소 서열을 사용하여 미세 조정되었으며, 이를 통해 생성된 서열이 F6H와 유사한 구조적 뼈대를 갖도록 보장되었습니다.
또한, "3점 고정" 설계 원칙이 새로 생성된 시퀀스에서 재현될 수 있도록 T114, F123, A220, M248 및 A317의 5가지 창립 잔류물에 제약이 부과되었습니다. 훈련 세트 미세 조정과 제약 생성을 결합한 모델을 미세 조정 확산 모델이라고 합니다.
그 다음에,실험적 검증의 성공률을 높이기 위해 연구진은 생성된 시퀀스 60,000개에 대한 가상 스크리닝을 실시했습니다. 이때 세 가지 기준은 생성된 시퀀스의 품질을 평가하는 포괄적 지표의 계산 점수, 5가지 기초 잔류물의 3차원 포켓 제약, 아피제닌 결합 모드의 견고성입니다.
가상 스크리닝 후,연구진은 추가 연구를 위해 유망한 비자연적 P450 효소 17개를 신중하게 선택했습니다.
연구 결과: 촉매 용량 1.3~3.5배 증가
연구진은 P450Diffusion에 의해 생성된 시퀀스가 진짜 P450 효소인지, 그리고 F6H 기능을 수행하는지 실험적으로 테스트했습니다.
가상 스크리닝 후, 연구진은 선택된 17개 디자인을 합성하여 효모 발현 시스템에서 발현시켰습니다. CYP706X1과 비교했을 때,이러한 디자인은 70%에서 87%까지의 서열 동일성을 보여주었습니다.이는 새로운 촉매로서의 잠재력을 강조합니다.
연구진은 기질로 아피제닌을 공급하고 재조합 효모를 4일 동안 배양한 후 HPLC 분석을 실시하여 아래 그림과 같이 F6H 활성이 유의미한 10가지 디자인을 찾아냈습니다.

놀랍게도,6가지 설계에서는 CYP706X1과 비교했을 때 올레안드린 생산 촉매 용량이 1.3~3.5배 증가하는 것으로 나타났습니다.아래 그림의 오른쪽에 있는 6개 막대에서 볼 수 있듯이, 나머지 4개의 활성 설계도 다른 천연 F6H 효소(즉, Cnan706X 및 Lsal706X)와 비슷한 활성을 보였습니다.

결과는 P450Diffusion이 F6H 촉매 포켓의 기본 설계 원리를 포착하고 F6H 활성을 갖는 P450 효소 시퀀스를 효과적으로 생성할 수 있음을 보여주었습니다.P450 효소 서열 공간에서 자연 서열보다 더 나은 P450 효소를 선별하는 것도 가능합니다.
데이터 기반 머신 러닝으로 효소 진화 가속화
자연에 존재하는 효소는 다양한 기능을 가지고 있으며 산업 생산과 학술 연구에 응용되어 왔습니다. 그러나 이들 효소 중 다수는 그 특성과 기능이 응용 분야의 요구를 충분히 충족시키지 못하고 있다. 이러한 효소의 특정 특성을 변형을 통해 개선하는 것은 효소 공학의 중요한 과제입니다.
안에,지향 진화는 자연의 진화 과정을 시뮬레이션하여 효소 진화 속도를 높일 수 있습니다.이는 효소 분자 변형을 위한 핵심 기술이 되었습니다. 지향성 진화는 생촉매와 약물 설계에서 중요한 역할을 하지만 돌연변이의 무작위성으로 인해 생성되는 돌연변이의 수가 엄청나게 많아 실험적 스크리닝 능력에 큰 어려움을 초래합니다. 최근 몇 년 동안 인공지능, 빅데이터 처리와 같은 신기술이 생촉매 분야의 중요한 연구 방법으로 발전했습니다. 이 중 머신 러닝은 데이터 기반 방식으로 효소 기능에 대한 서열/구조 매핑을 얻어 효소 엔지니어링의 효율성을 개선하는 데 도움을 제공합니다.
효소를 암호화하는 유전자는 쉽게 식별할 수 있지만, 대부분의 경우(991 TP3T 이상) 합성효소의 정확한 기능은 알려져 있지 않습니다. 효소 기능을 실험적으로 특성화하는 데(즉, 특정 효소에 의해 어떤 개시 분자가 어떤 특정 말단 분자로 전환되는지) 엄청난 시간이 걸리기 때문입니다.
이러한 과제를 해결하기 위해 뒤셀도르프 대학교(HHU)의 연구진은 효소-기질 쌍을 예측하기 위한 일반적인 기계 학습 모델 ESP를 개발했습니다.독립적이고 다양한 테스트 데이터에 대한 정확도 면에서 91%보다 우수합니다. ESP는 훈련 데이터에 포함된 매우 다양한 효소와 광범위한 대사산물에 성공적으로 적용될 수 있으며, 개별적이고 잘 연구된 효소 계열에 맞춰 설계된 모델보다 성능이 뛰어납니다.
해당 연구는 2023년 5월 Nature Communications에 "머신과 딥 러닝을 기반으로 효소의 소분자 기질을 예측하는 일반 모델"이라는 제목으로 게재되었습니다.
논문 링크:
https://www.nature.com/articles/s41467-023-38347-2
새로운 효소 설계는 흥미로운 반면, 효소 촉매 작용의 복잡성으로 인해 어려움에 직면합니다. 세포 없는 효소 공학 기업 Enzymit의 연구원들은 효소 설계를 위한 새로운 전략인 CoSaNN(신경망을 이용한 형태적 샘플링)을 소개했습니다.구조 예측 및 시퀀스 최적화를 위해 딥러닝의 발전을 활용합니다.연구자들은 효소의 구조를 제어함으로써 화학적 공간을 간단한 돌연변이의 범위를 넘어 확장할 수 있습니다.
또한 팀은 SolvIT를 더욱 발전시켰습니다.이는 대장균의 단백질 용해도를 예측하도록 훈련된 그래프 신경망입니다.고도로 발현되는 효소를 생산하기 위한 추가 최적화 계층입니다. 연구진은 이러한 접근 방식을 사용하여 뛰어난 발현 수준을 갖는 새로운 효소를 설계했습니다. 54%는 대장균에서 발현되도록 설계되었고 열 안정성이 개선되었으며, 30% 이상은 템플릿 효소보다 Tm이 더 높도록 설계되었습니다.
"딥 러닝을 활용한 맥락에 따른 유도적합 효소 설계로 발현성이 우수하고 열적으로 안정적이며 활성이 있는 효소 생성"이라는 제목의 이 연구는 2023년 8월 bioRxiv 사전 인쇄 플랫폼에 게재되었습니다.
논문 링크:
https://www.biorxiv.org/content/10.1101/2023.07.27.550799v3

데이터에 따르면 2023년까지 산업용 효소의 글로벌 시장 규모는 74억 달러에 달할 것으로 전망됩니다. 앞으로 인공지능의 힘을 활용하고 단백질 구성 및 진화에 대한 특성 정보를 학습함으로써 연구자들은 유익한 효과를 가진 돌연변이 예측, 단백질 안정성 최적화, 촉매 활성 개선 등 다양한 효소 공학 문제를 해결할 수 있을 것입니다. 이를 통해 생물 제조 비용을 더욱 절감하고 상업적 가치를 높일 수 있을 것입니다.
참고문헌:
1.https://spj.science.org/doi/10.34133/research.0413
2.https://www.cas.cn/syky/202407/t20240718_5026250.shtml
3.https://biotech.aiijournal.com/CN/10.13560/j.cnki.biotech.bull.1985.2022-0724
4.https://www.jiqizhixin.com/articles/2023-06-25-12
5.https://www.jiqizhixin.com/articles