MIT는 효모 DNA의 "언어"를 학습하는 Pichia-CLM 모델을 개발했는데, 이 모델을 통해 외래 단백질 생산량을 최대 3배까지 늘릴 수 있을 것으로 기대된다.

5달 전

바이오의약품 및 산업 생명공학 분야에서 재조합 단백질의 효율적인 발현은 생산 비용과 공정 실현 가능성을 결정하는 핵심 요소입니다. 단클론 항체와 백신 항원에서부터 산업용 효소 제제에 이르기까지, 발현 수준의 미미한 증가조차도 상당한 경제적 가치를 창출할 수 있습니다.

많은 표현 체계에서,피치아 파스토리스(코마가타엘라 파피이)는 고밀도 발효 능력, 성숙한 분비 발현 시스템, 그리고 뛰어난 단백질 처리 능력으로 높이 평가받고 있습니다.이 미생물은 산업 생산에 있어 중요한 숙주 중 하나가 되었습니다. 그러나 오랫동안 이 산업을 괴롭혀 온 문제는 아미노산 서열이 완전히 동일하더라도 코딩 DNA의 "동의 코돈"만 바꿔도 발현 수준에 몇 배나 큰 차이가 발생할 수 있다는 점입니다.

이 현상은 코돈 사용 편향(CUB)에서 비롯됩니다. 많은 유기체에서 특정 동의 코돈이 우선적으로 사용됩니다. 동의 코돈의 선택은 전사, mRNA 안정성, 번역, 단백질 접힘, 번역 후 변형(PTM) 및 용해도에 영향을 미쳐 단백질 생산량에 영향을 미칩니다.따라서 "코돈 최적화"는 외래 단백질 발현에 있어 핵심 단계가 되었습니다.

현재 업계에서는 호스트 CUB 기반의 다양한 코돈 최적화 도구와 방법이 개발되었지만, 이러한 방법들은 여전히 높은 표현력을 가진 구조를 일관되게 생성하지 못할 수 있습니다. 최근 인공지능, 특히 서열 모델링 기술의 발전과 함께,연구자들은 유전자 서열을 일종의 "언어"로 보기 시작했으며, 자연어 처리와 유사한 방법을 사용하여 그 안에 내재된 규칙을 학습하려고 노력하고 있습니다.

이러한 맥락에서,MIT 연구팀은 산업용 숙주인 피치아 파스토리스(Pichia pastoris)에서 재조합 단백질 생산량을 향상시키기 위한 코돈 최적화에 딥러닝 기반 언어 모델인 피치아-CLM(Pichia-CLM)을 제안했습니다.기존 방식은 CUB 지표(일반적으로 전체 점수만 제공하고 서열 맥락을 무시함)에 의존하는 반면, Pichia-CLM은 숙주 게놈 데이터를 활용하여 아미노산-코돈 매핑을 편향 없이 학습합니다. 연구진은 다양한 복잡성을 가진 6가지 단백질 종류에 대해 Pichia-CLM을 실험적으로 검증했으며, 4가지 상용 코돈 최적화 도구에 비해 일관되게 더 높은 발현 수율을 관찰했습니다.

"Pichia-CLM: Komagataella phaffii를 위한 언어 모델 기반 코돈 최적화 파이프라인"이라는 제목의 관련 연구 결과가 PNAS에 게재되었습니다.

연구 하이라이트:

* Pichia-CLM은 숙주 게놈 데이터를 사용하여 숙주 선호도뿐만 아니라 위치 의존성 및 장거리 문맥 관계까지 고려하여 아미노산-코돈 매핑을 편향 없이 학습합니다.

* Pichia-CLM은 다양한 복잡성을 가진 6가지 단백질에 대해 실험적으로 검증되었으며, 일관되게 더 높은 발현 수율을 보여주었습니다.

* 모델이 학습한 아미노산 및 코돈 임베딩은 물리화학적 특성에 따라 그룹화될 수 있으며, 이는 언어 모델이 물리적으로 의미 있는 패턴을 포착할 수 있음을 나타냅니다.

서류 주소:
https://www.pnas.org/doi/10.1073/pnas.2522052123
저희 공식 위챗 계정을 팔로우하시고 백그라운드에서 "Pichia pastoris"라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.

피치아 파스토리스(Pichia pastoris)를 중심으로 대규모 염기서열 데이터셋을 구축합니다.

경험적 규칙에 의존하는 기존 방식과 달리, Pichia-CLM의 핵심 아이디어는 숙주 게놈에서 직접 코딩 패턴을 학습하는 것입니다. 이를 위해,연구팀은 피치아 파스토리스(Pichia pastoris)를 중심으로 대규모 염기서열 데이터셋을 구축했다.

Pichia-CLM을 훈련시키기 위해 연구진은 NCBI에서 Pichia pastoris 변종 두 가지(CBS7435 및 GS115)의 아미노산 및 코딩 서열 데이터를 수집했습니다. 여기에 GS115, K. phaffii(NRRL Y11430) 및 K. pastoris의 게놈 시퀀싱 및 주석을 포함하여 연구실에서 이전에 완료한 데이터를 추가했습니다.총 약 27,000쌍의 아미노산 코딩 서열 데이터가 사용되었습니다.

데이터 처리 과정에서 연구원들은 아미노산과 코돈을 토큰화하고 시작 서열을 도입했습니다(…). ),종료( ) 그리고 채우기 ( 데이터셋에는 레이블이 지정되어 있어 모델이 다양한 길이의 시퀀스를 처리하고 배치 학습을 지원할 수 있습니다. 또한 데이터셋은 훈련 세트와 테스트 세트로 나뉘며, 약 201개의 TP3T 데이터를 사용하여 모델의 예측 능력을 미지의 데이터에 대해 평가합니다.

이 데이터 구축 방법은 인위적인 "최적화 목표"를 도입하지 않고 전적으로 자연적인 유전체 데이터에 기반한다는 점에 주목할 필요가 있습니다. 즉, 모델은 인위적으로 설정한 근사 규칙이 아닌 숙주의 실제 발현 선호도를 학습하여 향후 성능 향상의 토대를 마련합니다.

Pichia-CLM은 GRU 기반 인코더-디코더 아키텍처를 사용합니다.

모델 아키텍처

Pichia-CLM은 GRU(게이트 순환 유닛) 기반의 인코더-디코더 아키텍처를 사용합니다.GRU는 시퀀스 데이터에서 장거리 및 단거리 의존성을 포착하도록 설계된 개선된 순환 신경망 아키텍처입니다. GRU는 게이팅 메커니즘을 통해 정보 흐름을 조절함으로써 기존 순환 신경망에서 흔히 발생하는 기울기 소실 문제를 효과적으로 완화합니다. 또한 GRU의 성능은 장단기 메모리(LSTM) 네트워크와 유사하지만, 필요한 파라미터 수가 적고 계산 자원 소모도 적어 많은 시퀀스 모델링 작업에서 더 높은 효율성을 제공합니다.

주류 아키텍처인 Transformer와 비교했을 때, GRU는 소규모에서 중간 규모의 데이터 세트에서 더 높은 계산 효율성과 더 낮은 리소스 소비량을 보여줍니다.연구 결과에 따르면 약 27,000개의 시퀀스로 구성된 데이터 크기에서 Transformer를 도입하면 불필요한 복잡성이 증가할 수 있는 반면, GRU는 성능과 효율성 사이에서 더 나은 균형을 이룰 수 있는 것으로 나타났습니다.

이 모델은 단백질의 아미노산 서열을 입력으로 받아, 숙주 아미노산 서열과 코딩 서열로부터 학습한 패턴을 기반으로 해당 DNA 서열을 생성합니다. 전체적인 구조는 아래 그림에 나와 있습니다.

모델 학습 과정

연구진은 훈련 과정에서 검증 세트(훈련 세트의 20%)를 사용하여 조기 종료를 통해 매개변수를 최적화했습니다. 동시에, 검증 세트 손실(희소 분류 교차 엔트로피)을 최소화하는 것을 목표로 하이퍼파라미터 선택을 수행했습니다.하이퍼파라미터 최적화는 베이지안 최적화라는 전역 최적화 전략을 사용하며, 연구원들이 자체적으로 구현한 코드와 결합됩니다.

구체적으로, 해당 모델에는 다음과 같은 하이퍼파라미터가 포함됩니다.

* 아미노산 삽입 차원

* 코돈 임베딩 차원

* 인코더 레이어의 유닛 수

* 디코더에서 코돈 완전 연결 계층의 크기

* 디코더에서 아미노산 완전 연결층의 크기

모델 학습 단계에서 디코더의 입력은 실제 인코딩된 서열(즉, 실제 코돈)입니다. 예측 단계에서 모델은 이전 위치에서 예측된 코돈을 다음 위치의 입력으로 사용하여 완전한 자기회귀 예측을 수행합니다. 서열 예측은 정지 코돈이 나타나면 종료됩니다.

연구진은 아키텍처 선택을 완료하고 테스트 세트에서 예측력을 검증한 후, 전체 데이터 세트를 사용하여 최종 모델을 재학습시키고 과적합을 방지하기 위해 조기 종료 전략을 계속 적용했습니다. 이 최종 모델을 사용하여 외래 단백질의 코딩 서열을 설계했습니다.

Pichia-CLM은 고단백질 생산 유전자 구조를 생성할 수 있습니다.

실험적 검증 부분에서 연구팀은 테스트 대상으로 복잡성 수준이 서로 다른 6개의 단백질을 선정했습니다.

인간 성장 호르몬(hGH)

* 인간 과립구 집락 자극 인자(hGCSF)

* VHH 나노바디 3B2 (34)

* 엔지니어링된 SARS-CoV-2 RBD 서브유닛 변형체(RBD)(35)

* 인간 혈청 알부민(HSA)

* IgG1 단클론 항체 트라스투주맙(Trast)

피치아 파스토리스에서 단백질 분비 증진에 있어 피치아-CLM의 성능

첫 번째,연구진은 크기와 복잡성이 다양한 세 가지 인간 유래 단백질(hGH, hGCSF, HSA)을 선택하고, Pichia-CLM을 사용하여 생성된 유전자 구조와 원래의 코딩 서열 간의 단백질 분비 수율(역가) 차이를 비교했습니다.전반적으로 hGH 및 hGCSF와 같은 단백질의 경우 수율 증가는 약 25%였으며, HSA의 경우 약 3배의 상당한 증가가 관찰되었습니다.

이후 연구진은 Pichia-CLM을 Azenta, IDT, GenScript, Thermo Fisher(Thermo) 등 4가지 상용 코돈 최적화 도구와 비교하고, 2가지 지표를 사용하여 6개의 단백질을 평가했습니다.

* 최적 역가(BestTiter): 특정 방법을 통해 얻은 가장 높은 역가를 가진 단백질의 수.

* 종합 점수: 서로 다른 단백질의 상대적 역가 합계(최대값으로 정규화됨).

전반적인,Pichia-CLM은 두 가지 지표 모두에서 상용 알고리즘보다 우수한 성능을 보였습니다(아래 그림 C). 6개 단백질 중 5개에서 가장 높은 역가를 달성했으며, HSA에서 역가가 약간 낮아 전체 점수가 약 0.2점 정도 소폭 감소했을 뿐입니다(아래 그림 D).

*(D) 다양한 분자에서 Pichia-CLM과 여러 상용 알고리즘 간의 코돈 최적화 효율 비교.*

유전자 서열 특성 평가

연구진은 외래 단백질 생산에서 Pichia-CLM의 성능을 검증한 후, 설계된 다양한 구조체의 유전자 서열 특성을 추가로 분석했습니다.기존에 보고된 다른 단백질 언어 모델들을 포함하여, 코돈 최적화는 일반적으로 설계 또는 평가를 위해 하나 이상의 코돈 사용 편향(CUB) 지표에 의존합니다. 따라서 본 연구에서는 6개의 테스트 단백질 데이터를 사용하여 이러한 CUB 지표와 단백질 수율 간의 상관관계를 평가했습니다.

연구 결과에 따르면 이러한 지표 중 어느 것도 다양한 단백질에서 수율과 일관되고 높은 상관관계를 보이지 않았습니다. 예를 들어, HSA의 경우(아래 그림 A 참조), 코돈 변동성 및 코돈 빈도 분포(CFD)와의 최대 양의 상관관계는 0.43에 불과했으며, 코돈 쌍 점수(CPS)와의 최대 음의 상관관계는 0.25에 그쳤습니다.

*실험적인 단백질 테스트에서, Pichia-CLM이 예측한 음성 시스 조절 요소의 수를 상업적으로 설계된 알고리즘이 예측한 수와 비교했습니다.*

전체 서열을 기반으로 계산된 글로벌 CUB 지표는 외인성 단백질 생산과 관련된 특징을 규명하는 데 상당한 한계가 있습니다.이는 코돈 최적화 도구를 평가하기 위한 새로운 평가 지표의 필요성을 더욱 분명히 보여주며, 다양한 단백질에 대한 엄격한 실험적 검증과 결합되어야 함을 시사합니다. 이러한 결과는 전통적인 코돈 최적화의 이론적 기반에 정면으로 도전하는 것입니다.

순차적 특징 평가

연구진은 또한 숙주의 조절 메커니즘을 방해할 수 있으므로 외래 DNA 서열에서 가능한 한 피해야 하는 다양한 코돈 최적화 구조에서 음성 시스 조절 요소의 존재 여부를 평가했습니다.

테스트된 6가지 단백질 중,Pichia-CLM을 사용하여 설계된 구조에서는 음성 시스 조절 요소가 검출되지 않았습니다. 반면, GenScript는 6개 단백질 중 3개에서 하나의 음성 시스 조절 요소를 포함하고 있었고, Azenta와 IDT는 적어도 하나의 단백질에서 3~4개의 음성 시스 조절 요소를 포함하는 서열을 생성했습니다.그림 B에 나타낸 바와 같이:

*52개의 생명공학 관련 벤치마크 단백질에서 Pichia-CLM 및 GenScript 최적화 서열 내 음성 시스 조절 요소의 분포를 비교했습니다.*

연구진은 또한 52개의 생명공학 관련 단백질에서 Pichia-CLM의 성능을 분석했으며, 그 결과는 다음과 같습니다.75%의 단백질 서열에는 음성 시스 조절 요소가 전혀 포함되어 있지 않지만, 나머지 25%에는 이러한 요소가 최대 두 개 포함되어 있습니다.반면, 가장 성능이 뛰어난 상용 알고리즘인 GenScript는 아래 그림 C에서 볼 수 있듯이 약 15% 단백질에 3~6개의 음성 시스 조절 요소를 포함하는 구조를 여전히 생성했습니다.

*예측된 RNA 구조 자유 에너지를 기반으로, 서로 다른 구조체의 RNA 안정성을 비교했습니다(Pichia-CLM 대 상용 알고리즘).*

요약하자면, 이러한 결과는 Pichia-CLM이 고수율 단백질 구조체를 생성할 뿐만 아니라 핵심 유전 서열 특징을 학습하고 여러 요소 간의 균형을 달성하여 숙주 발현에 적합한 견고한 코딩 서열을 설계할 수 있음을 보여줍니다.

인공지능은 단백질 생산의 산업화를 가속화한다

바이오의약품 산업에서 단백질 생산 효율 향상은 연구 개발의 실용화 및 상용화 성공 여부를 결정짓는 핵심 요소였습니다. 단클론 항체부터 재조합 백신, 다양한 융합 단백질 및 효소 제제에 이르기까지 시장 수요는 지속적으로 증가하고 있으며, 수율, 안정성 및 일관성에 대한 요구 사항 또한 끊임없이 높아지고 있습니다.

이러한 목표를 달성하기 위해 업계는 다층적인 최적화 시스템을 개발해 왔습니다. 숙주 수준에서는 기존의 대장균(E. coli)과 효모(Saccharomyces cerevisiae) 외에도 우수한 단백질 번역 후 변형 능력과 발현 효율 덕분에 피치아 파스토리스(Pichia pastoris)와 포유류 세포가 주요 생산 플랫폼으로 자리 잡았습니다. 분자 설계 수준에서는 코돈 최적화 외에도 프로모터 강도 조절, 신호 펩타이드 스크리닝, mRNA 구조 설계, 단백질 접힘 및 분비 경로 최적화 등이 포함됩니다. 공정 수준에서는 고밀도 발효, 공급 전략 최적화, 생물반응기 매개변수 제어 또한 최종 수율에 결정적인 역할을 합니다.

이 시스템 외부에서는,새로운 유형의 "탈세포화" 기술인 무세포 단백질 합성(CFPS)이 빠르게 부상하고 있습니다.이 기술은 세포 성장 과정을 생략하고 세포 용해물 내의 전사 및 번역 시스템을 직접 활용하여 신속한 단백질 발현을 달성합니다. 항체, 효소, 심지어 항체-약물 접합체의 개발 및 생산에 널리 사용되어 왔습니다. 그러나 CFPS 시스템 자체는 DNA 주형, 효소 시스템, 에너지 공여체, 아미노산, 이온 환경 등 수십 가지 구성 요소가 관여하는 매우 복잡한 다변수 시스템입니다. 조합 공간이 매우 넓어 기존의 경험 기반 최적화 방법으로는 비용과 수율 간의 이상적인 균형을 달성하기 어려운 경우가 많습니다.

이러한 배경 속에서 AI 기반 자동 최적화는 혁신적인 잠재력을 보여주고 있습니다. 최근 OpenAI는 선도적인 합성 생물학 기업인 Ginkgo Bioworks와 협력하여 획기적인 연구 결과를 발표했습니다.GPT-5 대형 언어 모델을 기반으로 구축된 "폐쇄 루프 자동화 시스템"은 무세포 단백질 합성(CFPS) 기술의 이중 최적화를 성공적으로 달성했습니다. 이를 통해 기술의 총 생산 비용을 401 TP3T 절감하고, 시약 비용을 571 TP3T 대폭 절감하며, 단백질 합성 수율을 271 TP3T 향상시켰습니다.

앞으로 이와 유사한 접근 방식은 더욱 광범위한 바이오 제조 시나리오로 확대될 것입니다. 세포 공장에서의 대사 경로 최적화부터 발효 공정의 실시간 제어 및 발현 벡터의 지능형 설계에 이르기까지, 인공지능은 단백질 의약품 생산의 모든 측면에 점차 접목되고 있습니다.

참고문헌:
1.https://www.pnas.org/doi/10.1073/pnas.2522052123
2.https://phys.org/news/2026-02-ai-yeast-dna-language-boost.html#google_vignette
3.https://mp.weixin.qq.com/s/Qkl6j9HcFB7W_Y5Xh-9BCw