Science 저널에 게재되었습니다! 상하이 교통대학교와 상하이 AI 연구실은 가장 진보된 방법보다 성능이 뛰어난 단백질 돌연변이 설계 모델을 공동으로 출시했습니다.

단백질은 인간 생명 활동의 실행자일 뿐만 아니라 생물의학, 식품 가공, 양조 산업, 화학 산업 등 많은 분야에서 중요한 역할을 합니다. 따라서 사람들은 산업 응용 시나리오에 대한 요구를 충족하고 안정성이 높은 단백질을 선택하기 위해 단백질의 구조, 기능 등에 대한 연구를 끊임없이 수행해 왔습니다.
그러나 산업 환경에서 기능하기 위해 생물체에서 추출한 "야생형" 단백질에 필요한 물리적, 화학적 조건(온도, pH 등)은 대부분 원래의 생물학적 환경과는 거리가 멉니다. 다시 말해, 이 유형의 단백질은 안정성이 낮아 혹독한 산업 환경에 적응하기 어렵습니다. 따라서 다양한 응용 시나리오의 요구 사항을 충족하기 위해돌연변이는 단백질의 물리화학적 특성을 개선하여 극한 온도/pH 조건에서 안정성을 높이거나 효소 활성과 특이성을 높이는 데 종종 필요합니다.
단백질의 생물학적 활동을 바꾸려면 작동 메커니즘에 대한 수년간의 실험적 연구가 필요한데, 이는 시간과 노력이 많이 들 뿐만 아니라, 빠르게 변화하는 수정 요구 사항을 충족시키는 것이 점점 더 어려워지고 있습니다. 최근 단백질 언어 모델의 등장으로 단백질 적합도 예측의 정확도는 크게 향상되었지만, 안정성 예측의 정확도는 여전히 부족합니다.
진정으로 의미 있는 단백질 돌연변이는 생물학적 활동을 유지하면서 안정성을 향상시켜야 하며, 그 반대의 경우도 마찬가지입니다. 이에 대해 상하이 교통대학교 자연과학대학/물리천문학대학 홍량 교수 연구팀과 상하이 인공지능연구실의 젊은 연구원 탄판, 상하이기술대학, 중국과학원 항저우 의대의 협력자들은그들은 공동으로 새로운 단백질 서열 대규모 언어 모델 사전 훈련 방법인 PRIME을 개발했습니다.동시에, 단백질 돌연변이 활성 및 돌연변이 안정성 예측, 그리고 기타 온도 관련 표현 학습에서 가장 좋은 예측 결과가 얻어졌습니다.
"안정성과 활동성이 향상된 단백질을 설계하기 위한 일반적인 온도 유도 언어 모델"이라는 제목의 관련 연구는 Science 계열의 유명 저널인 Science Advances에 게재되었습니다.
연구 하이라이트:
* PRIME은 이전 실험 데이터에 의존하지 않고도 특정 단백질 돌연변이체의 성능 향상을 예측할 수 있습니다.
* PRIME은 단백질의 다양한 속성을 효과적으로 예측할 수 있어 연구자들이 익숙하지 않은 영역에서 단백질을 성공적으로 설계할 수 있도록 합니다.
* PRIME은 단백질 서열의 온도 특성을 더 잘 포착할 수 있는 "온도 인식" 언어 모델을 기반으로 훈련됩니다.

서류 주소:
https://www.science.org/doi/10.1126/sciadv.adr2641
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 단백질 서열과 온도 간의 관계를 탐구하는 9,600만 개의 레코드
Uniprot(Universal Protein Resource)의 공공 데이터와 메타게놈 연구를 통해 환경 샘플에서 얻은 단백질 서열을 통합함으로써,연구자들은 47억 개의 천연 단백질 서열을 포함하는 대규모 데이터베이스인 ProteomeAtlas를 편찬했습니다.
* UniProt은 단백질 서열과 관련된 자세한 주석을 제공하는 대규모 데이터베이스입니다.
시퀀스 스크리닝 과정에서 연구자들은 전장 시퀀스만을 보관하고 생물학적 시퀀스 정렬 도구인 MMseqs2를 사용하여 이 시퀀스를 처리했으며, 중복성을 줄이기 위해 시퀀스 동일성 임계값을 50%로 설정한 다음 박테리아 균주의 최적 성장 온도(OGT)와 관련된 시퀀스를 식별하고 주석을 달았습니다.
결정적인,연구자들은 이런 방식으로 9,600만 개의 단백질 서열에 주석을 달았습니다.이는 단백질 서열과 온도 사이의 관계를 탐구하는 데 필요한 풍부한 자료를 제공합니다.
또한, 모델의 열적 안정성에 대한 제로샷 예측 능력 분석에서 용융 온도 변화(ΔTm)를 연구하는 데 사용된 데이터 세트는 MPTherm, FireProtDB, ProThermDB에서 파생되었으며, 모든 실험은 동일한 pH 조건에서 수행되었습니다.
이 중 MPTherm에는 단백질의 열 안정성과 관련된 실험 데이터가 포함되어 있습니다. FireProtDB는 단백질의 열 안정성 및 기능과 관련된 돌연변이 실험 데이터를 저장하는 데 특별히 사용됩니다. ProThermDB는 단백질의 열역학적 특성과 관련된 데이터를 특별히 수집합니다. 동시에 연구진은 주로 단백질 돌연변이 분석 데이터베이스인 ProteinGym에서 얻은 심층 돌연변이 스캐닝(DMS) 데이터를 결합했습니다.
* ProteinGym 단백질 돌연변이 데이터 세트
https://go.hyper.ai/YlMT5
모델 아키텍처: "온도 지각" 기반 딥러닝 모델
본 연구소가 제안한 새로운 딥러닝 모델 PRIME(Protein language model for Intelligent Masked pretraining and Environment prediction)은이전 실험 데이터에 의존하지 않고도 특정 단백질 돌연변이체의 성능 향상을 예측할 수 있는 능력.
이 모델은 9,600만 개의 단백질 시퀀스 데이터 세트를 사용하는 "온도 인식" 언어 모델을 기반으로 훈련되었으며, 토큰 수준에서는 마스크 언어 모델링(MLM) 작업과 시퀀스 수준에서는 최적 성장 온도(OGT) 예측 목표를 결합하고, 다중 작업 학습을 통해 상관 관계 손실 항을 도입했습니다. 고온 내성이 있는 단백질 서열을 선별하여 안정성과 생물학적 활성을 최적화할 수 있습니다.
구체적으로,PRIME은 3가지 주요 부분으로 구성되어 있습니다.아래 그림과 같습니다. 첫 번째는 시퀀스의 잠재 특징을 추출하는 데 사용되는 Transformer 인코더인 Encoder 모듈입니다. 두 번째는 MLM 모듈로, 인코더가 아미노산의 문맥적 표현을 학습하는 데 도움이 되도록 설계되었습니다. 동시에 MLM 모듈은 돌연변이 점수 매기기에도 사용될 수 있습니다. 세 번째 구성 요소는 OGT 예측 모듈로, 잠재적 표현을 기반으로 단백질이 위치한 생물체의 OGT를 예측할 수 있습니다.

PRIME의 사전 학습 단계의 멀티태스크 학습에는 MLM, OGT 예측 및 상관 관계 손실이 포함됩니다.
안에,MLM은 종종 시퀀스 데이터 표현을 위한 사전 학습 방법으로 사용됩니다.이 연구에서는 노이즈가 있는 단백질 시퀀스를 입력으로 사용하고, 일부 레이블은 마스크 처리하거나 대체 레이블로 표현했으며, 훈련 목표는 이러한 노이즈가 있는 레이블을 재구성하는 것이었습니다. 이러한 접근 방식은 모델이 아미노산과 서열의 맥락적 정보 사이의 종속성을 포착하는 데 도움이 되며, 이 재구성 과정을 사용하여 돌연변이를 평가합니다.
두 번째 훈련 과제는 지도 학습 조건에서 최적화되었으며, 연구진은 OGT로 주석이 달린 9,600만 개의 단백질 서열 데이터 세트를 사용하여 PRIME 모델을 훈련했습니다. 이 작업의 입력은 단백질 서열이고, OGT 모듈에서 생성된 온도 값의 범위는 0°C에서 100°C입니다. OGT 모듈과 MLM 모듈은 공유 인코더를 사용하여 작동한다는 점이 주목할 만합니다.이 구조를 통해 모델은 아미노산 맥락 정보와 온도에 따른 서열 특징을 동시에 포착할 수 있습니다.

마지막으로 연구자들은 예측된 OGT에서 MLM 분류로의 피드백을 용이하게 하기 위해 상관 관계 손실을 도입하여 토큰 및 시퀀스 수준에서 작업 정보를 정렬했습니다.이를 통해 대형 모델이 단백질 서열의 온도 특성을 더 잘 포착할 수 있습니다.
실험 결론: 돌연변이 단백질 서열의 적응성 예측에 있어 가장 진보된 방법보다 우수한 성능을 보입니다.
연구진은 PRIME의 제로샷 예측 성능을 열 안정성을 위한 가장 진보된 모델인 ESM-1v, ESM-2, MSA-transformer, Tranception-EVE, CARP, MIF-ST, SaProt, Stability Oracle과 기존 계산 방법인 GEMME 및 Rosetta의 성능과 실험적으로 비교했습니다.
연구진은 MPTherm, FireProtDB, ProThermDB의 데이터 세트를 사용했습니다. 이 데이터 세트에는 동일한 pH 환경에서 수집된 녹는점 변화(ΔTm)가 포함되어 있으며, 각 단백질에 대해 최소 10개의 데이터 포인트가 있는지 확인하여 총 66개의 검출이 이루어졌습니다. 이 연구에서는 또한 ProteinGym을 테스트 벤치로 사용하여 심층 돌연변이 스캐닝(DMS) 분석법을 통합했습니다.
결과는 아래 그림과 같습니다.PRIME은 단백질 가용성과 안정성을 예측하는 데 있어 다른 모든 방법보다 우수한 성능을 보입니다.
ProteinGym 벤치마크(아래 그림의 노란색)에서 PRIME은 0.486점을 받았고, 2위인 SaProt은 0.457점을 받았습니다. ΔTm 데이터 세트(아래 그림의 진한 보라색)에서 PRIME은 0.437점으로 여전히 1위를 차지했고, 2위는 0.412점을 기록했습니다. 또한 연구진은 PRIME을 ProteinGym-stability 하위 데이터 세트(아래 그림의 연보라색)의 다른 방법과 비교했으며, PRIME은 여전히 다른 모든 방법보다 우수한 성과를 보였습니다.

단백질 공학의 실제 적용에서 PRIME의 효과와 효과를 테스트하기 위해서는 다음 사항이 중요합니다.연구진은 또한 습식 실험을 수행하고 검증을 위해 5개의 단백질을 선택했습니다.LbCas12a, T7 RNA 중합효소, 크레아티나아제, 인공 핵산 중합효소 및 특정 나노항체의 중쇄 가변 영역이 포함됩니다.
상위 30~45개 단일점 돌연변이에 대한 실험 시험에서 AI가 추천하는 단일점 돌연변이의 30% 이상이 열 안정성, 효소 활성, 항원-항체 결합 친화성, 비자연적 핵산 중합 능력, 극한 알칼리 조건에서의 내성 등의 주요 특성에서 야생형 단백질보다 유의하게 우수했으며, 개별 단백질의 양성률은 50%를 초과했습니다.

해당 팀이 PRIME을 기반으로 한 효율적인 방법을 시연했다는 점도 언급할 가치가 있습니다.향상된 활성과 안정성을 갖춘 다중 부위 돌연변이체를 빠르게 얻을 수 있습니다.이러한 소량 샘플 미세 조정 방법을 통해 100개 미만의 습식 실험 샘플로 2~4회의 진화 과정만으로 매우 우수한 단백질 돌연변이체를 생산할 수 있습니다.
예를 들어, 4차례의 건식-습식 반복 실험 후, T7 RNA 중합효소는 높은 활성과 높은 안정성을 갖춘 다중점 돌연변이체를 성공적으로 얻었습니다. 가장 높은 다중점 돌연변이체의 Tm은 야생형보다 12.8°C 더 높았고, 그 활성은 야생형의 거의 4배였습니다. 일부 제품의 성능은 10년 동안 시장을 장악해 온 세계적인 선도적 생명공학 기업(New England Biolabs)이 출시한 유사 제품보다 우수했습니다. 게다가 LbCas12a와 T7 RNA 중합효소의 실험에서 Pro-PRIME은 음성 단일점 돌연변이를 중첩하여 양성 다중점 돌연변이를 얻을 수 있습니다.
이는 PRIME이 서열 데이터로부터 단백질 돌연변이의 상호작용 효과를 학습할 수 있음을 보여주는데, 이는 전통적인 단백질 공학에 매우 중요한 의미를 갖습니다.
작은 샘플 문제를 극복하기 위한 단백질 엔지니어링 심화
단백질 공학 분야에서 단백질 발현, 정제 및 기능 테스트에는 일반적으로 값비싼 시약과 기기가 필요하고, 실험에는 시간이 많이 걸리므로 생성할 수 있는 샘플 수가 크게 제한됩니다. 단백질 기능 연구에서 단백질 돌연변이가 기능(촉매 활성, 열 안정성, 결합 친화도 등)에 미치는 영향을 테스트하려면 더욱 정밀하고 복잡한 실험이 필요하며, 모든 가능한 돌연변이의 성능을 한 번에 고처리량으로 측정하는 것은 어렵습니다.
이로 인해 머신 러닝 모델이 제한된 샘플에서 충분한 학습을 얻는 것이 어려워지고, 새로운 돌연변이를 예측하는 모델의 성능이 저하됩니다. 또한, 작은 샘플 데이터의 실험 오류나 노이즈는 모델 학습에 더 큰 방해를 초래할 수 있습니다. 라고 말할 수 있다소규모 샘플 데이터의 문제로 인해 단백질 공학 분야의 연구 효율성과 정확성이 어느 정도 제한되었습니다.이러한 사실은 연구자들이 소규모 샘플의 한계를 극복하기 위해 머신 러닝, 실험 기술, 다중 모드 데이터 분석을 결합하는 혁신적인 기술을 탐구하도록 크게 동기를 부여했습니다.
이 기사에 소개된 연구팀은 이 측면에서 뛰어난 성과를 보였습니다. 위에 언급한 PRIME 외에도, 홍리앙 교수의 팀과 탄판 박사는 소규모 표본 학습에 대한 여러 연구 결과를 발표했습니다.
이전에 팀은 메타 전이 학습(MTL), 순위 학습(LTR), 매개변수 효율적 미세 조정(PEFT)을 조합하여 사용했습니다.우리는 데이터가 극도로 부족한 상황에서 단백질 언어 모델을 효과적으로 최적화할 수 있는 FSFP라는 훈련 전략을 개발했습니다.이는 단백질 적응성에 대한 소규모 표본 학습에 사용될 수 있습니다. 이 방법은 매우 적은 양의 습한 실험 데이터를 사용할 때 돌연변이-속성 예측에 있어 기존 단백질 사전 학습 대형 모델의 효과를 크게 개선하며, 실제 응용 분야에서도 큰 잠재력을 보여줍니다.
관련 연구는 "최소한의 습식 실험실 데이터를 이용한 소수 학습을 통한 단백질 언어 모델의 효율성 향상"이라는 제목으로 Nature의 자회사인 Nature Communications에 게재되었습니다.
또한, 홍량 교수도 관련 의견을 공유했습니다. 그는 "향후 3년 안에 단백질 설계, 약물 개발, 질병 진단, 신규 표적 발굴, 화학 합성 경로 설계, 소재 설계 등의 분야에서 전문 분야의 일반 인공지능이 명확한 패러다임 전환을 가져올 것"이라고 전망했습니다. 과거 인간 뇌의 산발적인 시행착오에 의존했던 과학적 발견 모델을 AI 대규모 모델 자동화 표준 설계 모델로 전환할 것입니다.
구체적인 변경 사항에는 제로 샘플 또는 소규모 샘플 학습 방법을 구축하고 사전 학습 기술 모델을 구축하는 것이 포함됩니다.데이터가 없는 경우, 물리적 시뮬레이터를 통해 정확도가 약간 낮은 대량의 가짜 데이터를 생성하여 사전 학습을 실시한 후, 실제 데이터와 가치 있는 데이터를 미세 조정하여 강화 학습을 완료합니다.
홍 교수는 "가짜 데이터란 현실 세계에서 온 것이 아니지만 어느 정도 신뢰성이 있는 데이터를 말합니다. AI로 생성하거나 데이터 보강을 위해 물리적 계산 시뮬레이션을 통해 얻을 수 있습니다. 마지막으로, 실제 습식 실험 데이터가 가장 가치 있으며 모델의 최종 미세 조정에 사용됩니다."라고 강조했습니다.
실제로, 데이터 부족 문제는 단백질 공학 분야에만 존재하는 것은 아닙니다. 작은 표본이나 심지어 표본이 없는 학습 방법이 중요합니다. 우리는 홍 리앙 교수 팀과 탄 판 박사가 이러한 고통스러운 상황에서 더욱 고품질의 결과를 보여주기를 기대합니다.