구조/서열/기능 간의 관계에 기반한 단백질 언어 모델 분류 재정의: Li Mingchen 박사가 단백질 언어 모델을 자세히 설명합니다.

特色图像

상하이 교통대학교의 제3기 "생체공학을 위한 AI 여름학교"가 2025년 8월 8일부터 10일까지 공식 개교합니다.이 여름 학교에는 전 세계 70개 이상의 대학, 10개 이상의 과학 연구 기관, 10개 이상의 업계 선도 기업에서 온 200명 이상의 젊은 인재, 과학 연구자 및 산업 대표가 모여 인공지능(AI)과 생명공학의 통합 개발에 중점을 두었습니다.

그중 "AI 알고리즘의 최전선" 수업 섹션에서는 상하이 교통대학교 자연과학원 홍량 연구그룹의 박사후 연구원인 리밍천이 "단백질과 유전체의 기본 모델"이라는 주제로 기능 예측, 시퀀스 생성, 구조 예측 등에서 단백질 언어 모델의 최첨단 성과와 확장 법칙 및 유전체 모델 분야의 관련 연구 진행 상황을 공유했습니다.

리밍천 박사의 연설

HyperAI는 리밍천 박사의 훌륭한 발표 내용을 원래 의도를 훼손하지 않고 정리하고 요약했습니다. 다음은 발표의 주요 내용을 요약한 것입니다.

단백질 언어 모델의 새로운 분류: 단백질 구조, 서열 및 기능 간의 관계

단백질은 화학 공학, 농업, 식품, 화장품, 의학, 테스트 등 다양한 분야에 걸쳐 광범위한 응용 분야를 가지고 있으며, 시장 가치는 수조 달러를 초과합니다. 간단히 말해, 단백질 언어 모델링은 확률 분포 문제입니다. 자연에서 아미노산 서열이 발생할 확률을 계산하고 그에 따라 샘플링하는 것과 같습니다. 방대한 양의 데이터에 대한 사전 학습을 통해 모델은 자연에서 발견되는 확률 분포를 효과적으로 표현할 수 있습니다.

단백질 언어 모델은 세 가지 핵심 기능을 갖습니다.

* 단백질 서열을 고차원 벡터로 표현하는 학습 과정 

* 아미노산 서열의 합리성을 결정한다

* 새로운 단백질 서열 생성

많은 연구 논문에서 단백질 언어 모델을 변압기 구조에 따라 분류하고, 변압기 인코더 기반인지 변압기 디코더 기반인지 직접적으로 설명합니다. 이러한 분류는 생물학 연구자들이 이해하기 어렵고 종종 혼란을 야기합니다. 따라서 새로운 분류 방법을 소개하겠습니다.단백질의 구조, 서열, 기능 간의 관계에 따른 분류.

단백질의 서열은 아미노산 서열입니다. 아미노산 서열이 알려지면 실험실이나 공장에서 합성하여 실제 응용할 수 있습니다. 단백질의 구조 또한 매우 중요합니다. 단백질의 기능은 3차원 공간에서의 특정 구조에 기인하며, 이를 통해 미시적인 수준에서도 기능을 수행할 수 있습니다.

이러한 아이디어를 바탕으로 단백질 언어 모델은 다음의 네 가지 범주로 나눌 수 있습니다.

1. 시퀀스 → 함수:주어진 아미노산 서열의 기능을 예측하는 것, 즉, 기능적 예측 모델.

2. 함수 → 시퀀스:주어진 기능에 따라 해당 아미노산 서열을 설계하십시오. 생성 모델그리고 채굴 모델.

3. 순서 → 구조:아미노산 서열을 기반으로 구조를 예측하는 것을 일반적으로 다음과 같이 부릅니다. "구조 예측 모델"노벨상을 수상한 알파폴드는 이런 유형의 모델에 속합니다.

4. 구조 → 순서:주어진 단백질 구조에 기반하여 해당 시퀀스를 설계하는 것을 일반적으로 다음과 같이 부릅니다. "역접이식 모델"

적용 시나리오 및 기술 경로: 4가지 주요 모델 분석

시퀀스 → 함수

"순서 → 함수"를 이해하는 가장 간단한 방법은 지도 학습입니다.

첫째, 가장 기본적인 함수 예측 모델은 단백질 서열을 벡터로 표현한 후 특정 데이터셋에 대해 학습시키는 것입니다. 예를 들어, 단백질 녹는점을 예측하려면 먼저 대량의 단백질 녹는점 라벨을 수집하고, 학습 세트의 모든 단백질 서열을 고차원 벡터로 변환한 후 지도 학습 방법을 사용하여 학습시켜야 합니다. 마지막으로, 테스트 세트 또는 예측 세트의 서열에 대한 추론을 수행하여 함수를 예측할 수 있습니다. 이러한 접근 방식은 광범위한 작업을 처리할 수 있으며, 현재 인기 있는 연구 주제일 뿐만 아니라 결과를 도출하기도 비교적 쉽습니다.

둘째, 단백질 언어 모델은 돌연변이 함수도 예측할 수 있습니다.핵심 아이디어는 단백질 서열에서 특정 아미노산을 변경한 다음, 단백질 언어 모델을 사용하여 해당 변경이 "합리적인지" 확인하는 것입니다.

여기서 "합리적"이란 실생활에서의 논리적 일치성을 의미하는 것이 아니라, 아미노산 변화가 자연 단백질 서열의 확률 분포와 일치하는지 여부를 의미합니다. 이 확률 분포는 수많은 실제 아미노산 서열 통계에서 도출되며, 이러한 아미노산 분포 자체가 수천만 년에 걸친 진화의 산물입니다.

단백질 언어 모델은 훈련 과정에서 이러한 진화 법칙을 학습하여 돌연변이가 이러한 법칙을 따르는지 또는 벗어나는지 판단할 수 있습니다. 수학적으로, 이러한 판단은 돌연변이 전후 두 서열의 확률의 비율로 변환될 수 있습니다. 계산의 편의를 위해 이 비율은 종종 로그화되어 뺄셈 형태로 변환됩니다.

언어 모델에서 사용하는 돌연변이체와 야생형 단백질 간의 우도비는 돌연변이 효과의 강도를 추정할 수 있습니다. 이 아이디어는 DeepSequence 모델을 소개한 2018년 Nature Methods 논문에서 처음 제시되었지만, 당시 해당 모델은 비교적 규모가 작았습니다. 이후 2021년에 ESM-1v 모델은 단백질 언어 모델도 우도비를 사용하여 돌연변이 효과를 효과적으로 예측할 수 있음을 추가로 입증했습니다.

단백질 돌연변이 함수 예측 모델의 정확도를 평가하려면 벤치마크가 필요합니다.

벤치마크는 정확도를 측정하기 위해 수집된 작은 데이터 집합입니다. 예를 들어, 하버드 의과대학과 옥스퍼드 대학교가 공동 개발한 ProteinGym은 가장 일반적으로 사용되는 벤치마크입니다. ProteinGym에는 217개의 돌연변이 단백질과 수백만 개의 돌연변이 서열에 대한 데이터가 포함되어 있습니다. 연구자들은 단백질 언어 모델을 사용하여 이러한 각 돌연변이 서열에 점수를 부여한 다음, 모델의 예측 점수와 실제 점수를 비교합니다. 상관관계가 높을수록 모델 성능이 우수함을 나타냅니다.

하지만 ProteinGym은 처리량은 높지만 정확도는 낮은 벤치마크입니다.실험 조건에 제약을 받지만, 대규모로 테스트할 수 있지만 정확도가 제한될 수 있습니다. 실험을 반복하면 결과와 원본 데이터 간의 상관관계에 오류가 발생할 수 있으며, 이로 인해 평가 결과가 실제 적용 환경에서 모델의 성능을 정확하게 반영하지 못할 수 있습니다.

이 문제를 해결하려면우리는 VenusMutHub와 같은 낮은 처리량, 높은 정밀도의 소규모 샘플 벤치마크를 개발했습니다.데이터 양이 많지는 않지만, 각 데이터는 비교적 정확하고, 반복 실험 결과도 거의 일관성이 있어 실제 적용 시나리오에 더 가깝습니다.

* 서류 주소:Zhang L, Pang H, Zhang C 외. VenusMutHub: 소규모 실험 데이터에 대한 단백질 돌연변이 효과 예측 인자의 체계적 평가[J]. Acta Pharmaceutica Sinica B, 2025, 15(5): 2454-2467.

또한, 단백질 언어 모델의 돌연변이 예측 정확도를 높이기 위해 구조를 도입할 수 있습니다. 작년에 저희 팀은 NeurIPS에 단백질 언어 모델인 ProSST 모델에 대한 논문을 발표했습니다. 이 모델은 아미노산 서열과 구조화된 서열을 모두 사용하여 다중 모드 사전 학습을 수행합니다. ProSST는 최대 규모의 제로샷 돌연변이 예측 벤치마크인 ProteinGym 벤치마크에서 1위를 차지했습니다.

* 서류 주소:Li M, Tan Y, Ma X 외. ProSST: 양자화된 구조와 분산된 주의(disentangled attention)를 이용한 단백질 언어 모델링[C]. 신경 정보 처리 시스템의 발전, 2024, 37: 35700-35726.

실험이나 설계를 하다 보면 "어떤 모델을 사용해야 할까?", "사용자는 어떻게 선택해야 할까?"와 같은 질문에 자주 직면하게 됩니다.

올해 발표된 한 연구에서는저희 팀은 표적 시퀀스에 대한 단백질 언어 모델의 복잡성이 돌연변이 예측 작업에서의 정확도를 대략적으로 반영할 수 있다는 것을 발견했습니다.이 방법의 장점은 표적 단백질 돌연변이 데이터 없이도 성능 추정치를 제공할 수 있다는 것입니다. 구체적으로, 복잡도가 낮을수록 모델이 해당 서열을 더 잘 이해하게 되며, 이는 해당 서열에 대한 돌연변이 예측이 더 정확해진다는 것을 의미합니다.

이러한 아이디어를 바탕으로 VenusEEM이라는 앙상블 모델을 개발했습니다. VenusEEM은 복잡도에 따라 모델에 가중치를 부여하거나, 복잡도가 가장 낮은 모델을 직접 선택합니다. 이를 통해 돌연변이 예측 정확도를 높은 수준으로 향상시킵니다. 어떤 전략을 사용하든 최종 예측 점수는 비교적 안정적으로 유지되어 잘못된 모델 선택으로 인한 심각한 성능 저하를 방지합니다.

* 서류 주소:Yu Y, Jiang F, Zhong B 외. 바이러스 단백질을 위한 엔트로피 기반 제로샷 딥러닝 모델 선택[J]. Physical Review Research, 2025, 7(1): 013229.

마지막으로, "sequence to function" 연구 방향에서, 저희 팀은 앞서 언급한 모델들 외에도 작년에 새로운 반복적 고부위 돌연변이 설계 모델인 PRIME을 개발했습니다. 구체적으로, 먼저 9,800만 개의 단백질 서열을 기반으로 대규모 단백질 언어 모델을 사전 학습시켰습니다. 고부위 돌연변이 예측 과제를 위해, 먼저 저부위 돌연변이 데이터를 확보하여 단백질 언어 모델에 입력하고 함수 벡터로 인코딩했습니다. 이 함수 벡터를 기반으로 고부위 돌연변이를 예측하는 회귀 모델을 학습시켰습니다.이러한 반복적인 반응을 통해 단 2~3회의 실험만으로 우수한 단백질 제품을 개발할 수 있습니다.

* 종이 주소:Jiang F, Li M, Dong J 외. 향상된 안정성과 활성을 갖는 단백질을 설계하기 위한 일반적인 온도 유도 언어 모델[J]. Science Advances, 2024, 10(48): eadr2641.

「함수→시퀀스」

이전에 논의했던 것은 수열에서 함수로의 변환입니다. 함수에서 수열을 역으로 유도할 수 있는지 생각해 봅시다.

수열과 함수 사이에는 정방향 문제와 역방향 문제가 있습니다. 정방향 문제는 명확한 답을 찾는 것에 관한 것이고, 역방향 문제는 광활한 실현 가능 공간 내에서 해결 가능한 해를 찾는 것입니다. 함수에서 수열을 생성하는 것이 바로 이 역방향 문제입니다. 그 이유는 수열은 일반적으로 하나 또는 몇 개의 함수에만 대응하지만, 하나의 함수는 완전히 다른 다양한 수열로 구현될 수 있기 때문입니다. 더욱이 역방향 문제에 대한 신뢰할 수 있는 기준점도 없습니다. 주어진 함수에서 수열을 생성하는 모델의 정확도는 일반적으로 실험적으로만 검증할 수 있습니다.

현재 연구에서는기능에서 서열까지의 설계는 대부분 템플릿 기반 접근법을 채택합니다. 템플릿 단백질이 특정 기능을 가진 것으로 알려져 있다면, 이를 기반으로 새로운 영역을 찾거나 생성할 수 있습니다.이 과정은 먼저 기능에서 템플릿 서열로 이동한 다음, 템플릿 단백질에서 일부 패밀리 단백질/상동 단백질을 찾은 다음, 단백질 언어 모델을 미세 조정하고, 미세 조정된 언어 모델을 사용하여 새로운 서열 영역을 생성한 다음, 마지막으로 실험적 테스트를 수행하는 것입니다.

현재 가장 대표적인 두 가지 생성 단백질 언어 모델은 다음과 같습니다.

*ESM-3는 녹색 형광 단백질(GFP)을 템플릿으로 사용하여 생성되었지만, 생성된 단백질의 기능은 낮습니다. 

* ProGen은 ChatGPT와 유사한 순수 자기회귀 언어 모델로, 기능적 단서를 기반으로 생성될 수 있습니다. 라이소자임의 단백질 구조를 미세 조정하여 생성됩니다.

새로운 단백질 서열을 직접 생성하는 것 외에도,또한, 방대한 양의 기존 단백질 서열에서 직접 검색할 수도 있습니다.템플릿 단백질은 고차원 공간에 인코딩되며, 벡터 간의 거리는 두 단백질의 기능이 동일한지 여부를 결정합니다. 마지막으로, 결과는 데이터베이스에서 검색됩니다. 이 접근법의 원리는 고차원 공간에서 두 단백질의 인코딩 또는 벡터 간의 거리가 두 단백질의 기능이 유사한지 여부를 대략적으로 반영할 수 있다는 것입니다.

아래 그림은 단백질 언어 모델 마이닝의 두 가지 전형적인 사례를 보여줍니다. 첫 번째는 웨스트레이크 대학교에서 개발한 ESM-Ezy로, ESM-1b 모델을 사용하여 벡터 검색을 수행하고 여러 발현을 마이닝하여 충진합니다. 두 번째는 고효율 PET 가수분해효소를 마이닝하는 VenusMine 대규모 모델입니다.

* 종이 주소:Wu B, Zhong B, Zheng L 외. 고효율 및 강건성 PET 가수분해효소의 구조 기반 발견을 위한 단백질 언어 모델 활용[J]. Nature Communications, 2025, 16(1): 6211.

"함수 → 시퀀스" 외에도 함수와 시퀀스 사이에 "중개자"를 추가할 수도 있습니다.

* 구조가 중개자로 사용되는 경우: 단백질 구조는 기능(RFdiffusion과 같은 일반적인 도구)을 기반으로 추론되고, 생성된 구조는 역 단백질 접힘 언어 모델(ProteinMPNN과 같은)에 입력되어 최종적으로 시퀀스를 생성합니다. 

* 자연어를 매체로 사용하는 경우: 예를 들어, 연구 논문 "텍스트 기반 단백질 설계 프레임워크"에 설명된 방법은 비교 학습을 통해 자연어와 단백질 서열을 고차원 공간에 정렬합니다. 그런 다음, 자연어 안내를 사용하여 이 고차원 공간에서 단백질 서열을 직접 생성할 수 있습니다.

시퀀스 → 구조

서열-구조 방향에서 가장 고전적인 모델은 의심할 여지 없이 AlphaFold입니다. 그렇다면 구조 예측에 단백질 언어 모델이 여전히 필요한 이유는 무엇일까요?가장 큰 이유는 빠르기 때문입니다.

AlphaFold의 속도가 느린 주된 이유는 MSA(Multiple Sequence Alignment) 검색이 CPU에 의존하여 대용량 데이터베이스를 검색하기 때문입니다. GPU 가속이 가능하지만, 실제 가속은 더 느립니다. 둘째, AlphaFold는 폴딩 과정에서 템플릿 매칭을 필요로 하는데, 이 역시 상당한 시간을 소모합니다. 이 두 모듈을 단백질 언어 모델로 대체하면 구조 예측 속도를 크게 높일 수 있습니다. 그러나 현재 발표된 연구에 따르면, 단백질 언어 모델 기반 구조 예측의 정확도는 대부분의 평가 지표에서 여전히 AlphaFold 모델보다 전반적으로 낮습니다.

서열부터 구조까지 여러 가지 공통적인 단백질 언어 모델이 있습니다.단백질 언어 모델에서 추출한 기능을 사용하여 MSA를 대체한다는 일반적인 아이디어가 채택되었습니다.

* ESMFold(메타): MSA 검색에 의존하지 않고도 높은 정확도를 달성하여 단백질 언어 모델을 사용하여 단백질 구조를 직접 예측하는 최초의 방법입니다.

Proteinix-MINI(ByteDance): MSA 대신 단백질 언어 모델을 사용하여 매우 빠른 결과를 얻고 AlphaFold 3 모델에 가까운 예측 정확도를 제공합니다.

* xTrimo-Fold(바이두 바이오사이언스): MSA 대신 1000억 개의 매개변수 모델의 기능을 사용하여 검색 속도를 높입니다.

구조 → 순서

이 구조는 알려진 기능을 기반으로 설계되었지만, 실험실에서 이를 어떻게 합성할 수 있을까?또한 이를 아미노산 서열로 변환해야 하는데, 이는 앞서 언급한 "역 접힘 언어 모델"입니다.

역폴딩 언어 모델은 알파폴드의 "역문제"로 볼 수 있습니다. 아미노산 서열로부터 3차원 구조를 예측하는 알파폴드와 달리, 역폴딩 모델은 단백질의 3차원 구조로부터 아미노산 서열로의 사상 함수를 학습하는 것을 목표로 합니다.

이 분야의 몇 가지 연구를 소개하고자 합니다. 첫 번째 연구는 웨스트레이크 대학교 연구팀의 PiFold 모델입니다. 이 모델의 아키텍처에서 가장 큰 혁신은 비자기회귀 생성 방법을 사용한다는 것입니다.

두 번째는 데이비드 베이커 연구팀이 개발한 ProteinMPNN입니다. 가장 널리 사용되는 역접힘 모델 중 하나로, 자기회귀 생성 기법을 사용하여 그래프 신경망을 통해 개별 단백질 구조를 부호화한 후 아미노산 서열을 하나씩 생성합니다.

Meta의 ESM-IF 또한 상당한 발전을 이루었습니다. ESM-IF의 핵심은 AlphaFold가 예측한 방대한 구조 데이터를 활용하여 수천만 개의 단백질 서열에 대한 해당 3차원 구조를 균일하게 예측하고, 이를 통해 매우 방대한 학습 세트를 구축하는 것입니다. ESM-IF의 학습 데이터는 수천만 개에 달하며, 모델 수는 1억 개를 초과합니다. 이를 바탕으로 이 모델은 역폴딩(reverse folding) 작업을 수행할 뿐만 아니라 돌연변이 안정성 예측에도 뛰어난 성능을 보여줍니다.

단백질 언어 모델을 강화하기 위한 다양한 접근 방식

마지막으로, 현재 매우 인기 있는 연구 방향, 즉 단백질 언어 모델 강화에 대해 말씀드리겠습니다. 이 분야 연구를 계획하고 계신다면, 다음과 같은 아이디어들을 참고해 보세요.외부 정보를 도입하고 내부 구조를 개선합니다.

1. 외부 정보 소개

* 기능 정보: 예를 들어 온도와 pH와 같은 특징을 변환기에 입력합니다. 이 정보는 모델 입력에 명시적으로 통합되거나 학습된 동작을 통해 단백질 언어 모델의 성능을 향상시킬 수 있습니다. 

* 구조 정보: 3차원 구조나 구조화된 서열 정보를 소개합니다.

* MSA 정보: 다중 서열 정렬(MSA)은 매우 유용한 정보입니다. 언어 모델에 MSA를 도입하면 성능을 크게 향상시킬 수 있습니다. 

* 자연어 정보: 최근 몇 년 동안 일부 연구에서는 자연어 정보를 통합하려는 시도가 있었지만 이 방향은 아직 탐색 중입니다.

2. 내부 아키텍처 개선

* 스케일링 법칙: 모델 매개변수의 수와 학습 데이터의 크기를 크게 늘리면 성능이 향상됩니다.

데이터 품질 향상: 데이터의 노이즈를 줄이고 정확도를 높입니다.

* CARP, ProtMamba, Evo 아키텍처와 같은 새로운 아키텍처 탐색.

최근 몇 년 동안 단백질 구조 정보를 활용해 모델 성능을 향상시키는 것이 인기 있는 연구 방향이 되었습니다.

가장 초기의 대표적인 연구 중 하나는 2021년 논문 "단백질 언어 학습: 진화, 구조, 기능"으로, 구조 정보를 이용하여 단백질 언어 모델의 성능을 향상시키는 방법을 보여주었습니다. 이후 SaProt 모델은 기발한 접근법을 제시했습니다. 단백질의 아미노산 어휘를 Foldseek에서 생성한 단백질 구조에 대한 20개의 가상 구조 어휘와 연결하여 최종적으로 400개(20 × 20) 단어의 결합 어휘를 생성하는 것입니다. 이 어휘는 마스크 언어 모델을 학습하는 데 사용되었으며, 뛰어난 정확도를 달성했습니다.

저희 팀은 또한 단백질 서열 및 구조에 대한 다중 모드 사전 학습 모델 ProSST를 독립적으로 학습시켰습니다. 이 모델은 단백질의 연속적인 구조를 이산 토큰(2,048개의 서로 다른 토큰)으로 변환하여 구조 정보를 이산적으로 표현합니다.

단백질 언어 모델에 구조 정보를 통합하면 모델 성능을 크게 향상시킬 수 있습니다. 그러나 이 과정에서 문제가 발생할 수 있습니다. AlphaFold에서 예측한 구조 데이터를 학습에 직접 사용할 경우, 학습 세트의 손실은 점차 감소하는 반면 검증 세트 또는 테스트 세트의 손실은 점차 증가합니다.이 문제를 해결하는 핵심은 구조적 정보를 정규화하는 것입니다.일반인의 관점에서 보면, 복잡한 데이터를 단순화하여 모델 처리에 더 적합하게 만드는 것을 의미합니다.

단백질 구조는 일반적으로 3차원 공간에서 연속적인 좌표로 표현됩니다. 이는 이산적인 정수 시퀀스로 변환하여 단순화해야 합니다. 이를 위해 그래프 신경망 아키텍처를 사용하고 노이즈 제거 인코더로 학습시켜 약 2,048개의 토큰으로 구성된 이산 구조 어휘를 구축했습니다.

구조 및 순서 정보를 통해우리는 두 가지를 결합하기 위해 크로스 어텐션 메커니즘을 선택했습니다.이를 통해 수정된 트랜스포머 모델은 아미노산 서열과 구조 서열을 모두 입력할 수 있습니다. 사전 학습 단계에서 이 모델을 언어 모델 개발 과제로 설계했습니다.훈련 데이터에는 약 1억 1천만 개의 매개변수 크기를 가진 1,880만 개 이상의 고품질 단백질 구조가 포함되어 있습니다.이 모델은 당시 최첨단의 성과를 달성했으며, 그 이후로 새로운 모델에 밀려났지만, 출시 당시에는 해당 클래스에서 가장 좋은 성과를 기록했습니다.

단백질 언어 모델을 향상시키기 위해 MSA(다중 시퀀스 정렬)를 사용하는 것도 모델 성능을 개선하는 중요한 수단입니다.이 연구는 행 및 열 규칙을 도입하여 MSA 정보를 모델에 효과적으로 통합한 MSA-Transformer에서 시작되었습니다. 최근 출시된 PoET2 모델은 계층적 인코더를 사용하여 MSA 정보를 처리하고 이를 풀 패스 모델 아키텍처에 통합합니다. 대규모 학습 후 뛰어난 성능을 보였습니다.

확장의 법칙: 모델이 클수록 항상 더 강력한가?

소위 스케일링 법칙은 자연어 처리 분야에서 유래했습니다. 이는 보편적인 법칙을 제시합니다.모델 성능은 매개변수 규모, 학습 데이터 양, 컴퓨팅 리소스가 증가함에 따라 지속적으로 향상될 것입니다.

매개변수 크기는 모델 성능의 상한선을 결정하는 핵심 요소입니다. 매개변수 수가 부족하면 더 많은 컴퓨팅 리소스(쉽게 말하면 "더 많은 비용 지출")를 투자하더라도 모델 성능은 병목 현상에 도달합니다. 이러한 원리는 단백질 언어 모델 분야에서도 존재하며, RITA, xTrimoPGLM, ProGEN3, Amix-1과 같은 대표적인 연구를 포함한 수많은 연구를 통해 확인되었습니다.
* RITA 모델: 옥스퍼드 대학교, 하버드 의과대학, LightOn AI가 개발했습니다.

* xTrimoPGLM 모델: 바이투 바이오사이언스 팀에서 개발한 모델로, 모델 매개변수를 약 1,000억까지 확장할 수 있습니다.

* ProGEN3 모델: Profluent Biotech 팀에서 개발했습니다.

* Amix-1 모델: 청화대학교 지능산업연구소와 상하이 인공지능연구소에서 제안한 모델로, 베이지안 흐름 매칭 네트워크 아키텍처를 사용하며 확장 법칙도 가지고 있습니다.

앞서 언급한 "스케일링 법칙"은 사전 훈련 과정을 의미합니다. 그러나 단백질 연구에서 우리는 궁극적으로 후속 작업의 수행에 관심을 갖습니다. 이는 다음과 같은 의문을 제기합니다.향상된 사전 훈련 성과가 반드시 후속 작업에 도움이 되는가?

xTrimoPGLM 평가에서 연구팀은 약 44% 다운스트림 작업에서 "더 나은 사전 훈련 성과와 더 강력한 다운스트림 성과" 사이에 실제로 긍정적인 상관관계가 있음을 발견했습니다.

동시에, Amix-1 모델은 구조 예측 작업에서 창발적 역량을 보여주었습니다. 이는 작은 모델로는 문제를 완전히 해결할 수 없지만, 모델의 매개변수 크기가 특정 임계점을 초과하면 성능이 급격히 향상되는 작업을 의미합니다. 이 실험에서 이러한 현상은 특히 구조 예측 작업에서 두드러졌는데, 매개변수 크기가 임계점을 초과하면 성능 향상이 "절벽과 같은 붉은 선"을 나타냈습니다.

하지만 일부 작업에서는 대규모 모델이 실제로 더 나은 다운스트림 성능을 가져올 수 있습니다.그러나 다운스트림 작업에서도 역스케일링 법칙이 발견되었습니다.즉, 모델이 작을수록 성능이 좋아집니다.

연구에 따르면 훈련 데이터 자체에 노이즈가 많을 경우 단순히 모델 매개변수 수를 늘리는 것만으로는 결과가 개선되지 않으므로 데이터 품질에 더욱 주의를 기울여야 합니다. ProteinGym 벤치마크의 단백질 돌연변이 예측 작업에서는 중간 크기의 모델이 실제로 정확도 측면에서 더 나은 성능을 보였습니다. 또한, xTirmoPGLM 개발팀은 사전 훈련 성능이 후속 작업 성능과 일치하지 않는 비양의 상관관계를 발견하기도 했습니다.

게놈 모델링: DNA 설계부터 단백질 수율 최적화까지

게놈 모델이 해결하는 문제는 '단백질을 어떻게 생산할 것인가?'입니다.

합성생물학에서는단백질 생성은 분자생물학의 중심 교리를 따릅니다. 즉, "DNA → RNA → 단백질"입니다.세포에서 이 과정은 세포체에 의해 제어되며, 우리는 유전자를 설계함으로써 이 과정을 완성할 수 있습니다. 하지만 핵심은 유전자 설계가 단백질 생성에 직접적인 영향을 미친다는 것입니다.

실제 응용 분야에서는 단백질의 기능적 성능이 우수함에도 불구하고, 유전적 설계가 미흡하여 발현 수준이 극히 낮아 산업화나 대규모 응용 분야의 요구를 충족하지 못하는 경우가 종종 발생합니다. 이러한 경우, AI 모델이 중요한 역할을 할 수 있습니다.

AI 모델의 임무는 단백질 서열로부터 DNA 서열을 직접 설계하고 생산량을 늘리는 방법을 추론하는 것입니다. 저희 팀이 제안하는 모델인 ProDMM은 사전 학습 전략을 기반으로 하며, 두 단계로 구성됩니다.

첫 번째 단계에서는 공동 사전 학습을 통해 단백질과 DNA의 표현을 학습합니다. 입력에는 단백질과 DNA 서열이 포함되며, 언어 모델은 트랜스포머 아키텍처를 사용하여 학습됩니다. 목표는 단백질, 코돈, DNA 서열의 표현을 동시에 학습하는 것입니다. 두 번째 단계에서는 생성 작업(generative task)이 단백질에서 코딩 서열(CDS)로 이동하는 것과 같은 후속 작업(downstream task)에 대해 학습됩니다. 단백질이 주어지면 DNA 서열을 생성할 수 있습니다.

* 서류 주소:Li M, Ren Y, Ye P 외. 단백질-DNA 상호의존성 규명을 위한 통합 다중 모드 시퀀스 모델링 활용[J]. bioRxiv, 2025: 2025.02. 26.640480.

코돈에서 비코딩 DNA(NCDS)로의 프로젝트의 목표는 코돈 최적화, 5'-UTR 설계, 프로모터 설계, 대사 경로 설계를 완료하는 것입니다.

대사 경로 설계는 특정 산물을 합성하기 위해 유전자 내 여러 단백질의 협력적인 작용을 포함합니다. 단백질 모델은 단일 단백질만을 최적화하고 맥락에 독립적이기 때문에, 전체 대사 경로의 산물을 최적화해야 하는데, 이는 유전체 모델에서만 가능한 작업입니다. 그러나 유전체 모델이 직면한 중요한 과제는 세포 환경 내의 상호관계를 고려해야 한다는 점이며, 이는 현재 가장 큰 과제입니다.

리밍첸 박사 소개

이 세션의 초청 연사는 상하이 교통대학교 자연과학연구소 홍량(Hong Liang) 연구팀의 박사후 연구원인 리 밍천(Li Mingchen)입니다. 그는 화동과학기술대학교(East China University of Science and Technology)에서 컴퓨터과학기술공학 박사 학위와 수학 학사 학위를 취득했습니다. 그의 주요 연구 분야는 단백질 언어 모델의 사전 학습 및 미세 조정입니다.

그는 상하이 우수 졸업생, 국가 장학금, 그리고 "인터넷+" 대학생 혁신 및 창업 경진대회 상하이 부문 금메달을 수상했습니다. NeurIPS, Science Advances, Journal of Cheminformatics, Physical Review Research 등의 학술지 및 학회에 제1저자/공동 제1저자/교신저자로 총 10편의 SCI 논문을 발표했으며, 10편의 SCI 논문 게재에도 참여했습니다.

2023년부터 2024년까지 AI4S 분야의 고품질 논문과 심층 해석 기사를 클릭 한 번으로 받아보세요⬇️