웨스트레이크 대학 팀은 SaProt 및 기타 단백질 언어 모델을 오픈 소스로 공개하여 구조 기능 예측/교차 모달 정보 검색/아미노산 서열 설계 등을 다루었습니다.

2025년 3월 22~23일, 상하이 교통대학교의 "AI 단백질 디자인 서밋"이 공식 개최되었습니다.이번 정상회의에는 청화대, 베이징대, 복단대, 저장대, 샤먼대 등 유명 대학의 전문가와 학자 300여 명, 그리고 업계 선도 기업과 기술 연구개발 인력 대표 200여 명이 참석해 단백질 설계 분야에서 AI의 최신 연구 성과, 기술적 혁신, 산업 응용 전망에 대해 심도 있게 논의했습니다.

정상회담 동안,웨스트레이크 대학의 위안파지에 박사는 "단백질 언어 모델의 연구와 응용"이라는 주제로 단백질 언어 모델의 최신 연구 진행 상황을 공유하고 팀의 중요한 성과를 자세히 소개했습니다.단백질 언어 모델 SaProt, ProTrek, Pinal, Evolla 등을 포함하여 HyperAI는 원래 의도를 훼손하지 않으면서 심도 있는 공유를 구성하고 요약했습니다. 다음은 연설의 주요 내용을 요약한 것입니다.
주목할 만한 단백질 언어 모델
단백질은 20개의 아미노산이 일렬로 연결된 생물학적 거대 분자입니다. 그들은 신체에서 촉매 작용과 신진대사와 같은 주요 기능을 수행하며 생명 활동의 주요 실행자입니다. 생물학자들은 보통 단백질의 구조를 네 가지 수준으로 구분합니다. 1차 구조는 단백질의 아미노산 서열을 기술하고, 2차 구조는 단백질의 국소적 형태에 초점을 맞추고, 3차 구조는 단백질의 전체적인 3차원적 구성을 나타내며, 4차 구조는 여러 단백질 분자 간의 상호 작용을 포함합니다.AI 단백질 분야에서는 이러한 구조에 대한 연구가 주로 이루어지고 있다.

예를 들어, 단백질의 서열로부터 3차원 구조를 예측하는 것은 AlphaFold 2가 해결하는 핵심 문제입니다. 이 연구는 50년 동안 과학계를 괴롭혔던 단백질 접힘 문제를 극복하고 이를 통해 노벨상을 수상했습니다. 반면, 구조와 기능에 기반하여 새로운 단백질 서열을 설계하는 단백질 설계 분야에 중요한 공헌을 한 데이비드 베이커 교수도 노벨상을 수상했습니다.
전통적으로 단백질 구조는 대개 PDB 좌표 형태로 표현됩니다. 최근 몇 년 동안 연구자들은 Foldseek, ProTokens, FoldToken, ProtSSN, ESM-3 등과 같이 연속적인 공간 구조 정보를 개별 토큰으로 변환하는 방법을 탐구해 왔습니다.
*폴드섹은 단백질의 3차원 구조를 1차원의 개별 토큰으로 인코딩할 수 있습니다.
우리 팀의 단백질 언어 모델은 이러한 개별적인 결과에 기초하고 있습니다.
대부분의 AI + 단백질 연구는 자연어 처리 연구로 거슬러 올라갈 수 있습니다. 따라서 먼저 자연어 처리(NLP) 분야의 두 가지 고전적 언어 모델을 살펴보겠습니다.하나는 GPT 시리즈로 대표되는 단방향 언어 모델이며,이 메커니즘은 정보가 왼쪽에서 오른쪽으로 흐르는 방식을 기반으로 하며, 왼쪽(위)의 데이터를 기반으로 다음 토큰을 예측합니다.하나는 BERT로 표현되는 양방향 언어 모델이며,마스크드 언어 모델(Masked Language Model)을 통해 사전 학습이 이루어졌으며, 조리된 단어의 왼쪽과 오른쪽에 있는 정보(맥락)를 보고 조리된 단어를 예측할 수 있습니다.

단백질 분야에서 두 가지 유형의 모델 모두 해당 단백질 언어 모델을 가지고 있습니다.예를 들어, GPT에 대응하여 ProtGPT2, ProGen 등이 있습니다. BERT에 대응하여 ESM 시리즈 모델인 ESM-1b, ESM-2, ESM-3이 있습니다. 이들은 주로 일부 아미노산을 가리고 그 "진짜 정체"를 예측합니다. 자연어 작업에서는 일부 단어를 마스크한 다음 이를 예측합니다. 아래 그림의 왼쪽에서 볼 수 있듯이, 단백질 커뮤니티에 비교적 큰 영향을 미치는 다른 언어 모델로는 MSA Transformer, GearNet, ProTrans 등이 있습니다.

ICLR 2024에 선정된 단백질 언어 모델 SaProt은 구조적 지식을 통합합니다.
제가 여러분께 소개하고 싶은 첫 번째 결과물은 SaProt입니다. 이는 구조를 인식하는 어휘를 갖춘 단백질 언어 모델입니다."SaProt: 구조 인식 어휘를 이용한 단백질 언어 모델링"이라는 제목의 이 논문은 ICLR 2024에 선정되었습니다.
본 논문에서는 구조 인식 어휘 개념을 제안하고, 아미노산 잔여물 토큰과 구조 토큰을 결합했으며, 약 4,000만 개의 단백질 서열과 구조로 구성된 데이터 세트에서 대규모 범용 단백질 언어 모델인 SaProt을 학습했습니다. 이 모델은 10가지 중요한 하위 작업에서 기존의 성숙한 기준 모델보다 전반적으로 우수한 성능을 보였습니다.
SaProt 오픈소스 주소:
https://github.com/westlake-repl/SaProt
SaProt 논문 주소:
https://openreview.net/forum?id=6MRm3G4NiU
왜 우리는 이 모델을 만들었을까?
사실, 대부분의 단백질 언어 모델의 입력 정보는 주로 아미노산 서열에 기반을 둡니다. AlphaFold에서 획기적인 성과가 나온 후, DeepMind 팀은 유럽 생물정보학 연구소(EMBL-EBI)와 협력하여 2억 개의 단백질 구조를 저장하는 AlphaFold 단백질 구조 데이터베이스를 출시했습니다. 그래서 우리는 생각하기 시작했습니다. 단백질 구조 정보를 언어 모델에 통합하여 성능을 향상시킬 수 있을까?

우리의 접근 방식은 매우 간단합니다. Foldseek을 사용하여 단백질의 구조 정보를 좌표 형태에서 개별 토큰으로 변환하여 아미노산 어휘집과 구조 어휘집을 구성한 다음, 이 두 어휘집을 결합하여 새로운 어휘집, 즉 구조 인식 어휘집(SA 토큰)을 생성합니다. 이런 방식으로 원래 아미노산 서열은 새로운 아미노산 서열로 변환될 수 있습니다. 이 서열에서 대문자는 아미노산 토큰을 나타내고 소문자는 구조 토큰을 나타냅니다. 그러면 우리는 가면 언어 모델에 대한 연구를 계속할 수 있습니다. 이를 바탕으로 우리는 약 3개월의 총 학습 시간으로 64개의 A100 GPU를 사용하여 6억 5천만 개의 매개변수를 가진 SaProt 모델을 학습시켰습니다.

왜 우리는 단백질 구조 토큰을 변환하기 위해 Foldseek을 선택했을까요?
Foldseek 3Di 토큰 시퀀스를 최종적으로 결정하는 데 반년이 걸렸습니다. 직관적으로 보면 단백질 언어 모델에 구조적 정보를 통합하면 성능이 향상될 것 같지만, 실제로 시도해보니 다양한 방법을 시도했지만 실패했습니다. 예를 들어, 우리는 GNN 방법을 사용하여 단백질 구조를 모델링했습니다. 단백질 구조가 실제로 그래프 신경망이기 때문에 우리는 자연스럽게 단백질 구조를 그래프로 모델링하고 싶었고, 따라서 MIF 방법을 채택했지만, 훈련된 모델의 일반화 능력이 좋지 않고 실제 PDB 구조로 확장할 수 없다는 것을 발견했습니다. 심층 분석 결과, Masked Language Model을 이용한 모델링 방식이 정보 유출 문제를 야기할 수 있기 때문일 것으로 판단됩니다.
간단히 말해서, AlphaFold가 직접 예측한 단백질 구조에는 AI 예측의 특정 편향, 패턴 및 흔적이 있습니다. 이 데이터를 사용하여 언어 모델을 훈련하면 모델은 이러한 흔적을 쉽게 포착할 수 있으며, 그 결과 훈련 데이터에서는 모델이 좋은 성능을 보이지만 일반화 능력은 부족합니다.

우리는 Evoformer 방법을 사용하는 등 다양한 개선을 시도했지만 Foldseek을 시도하기 전까지 정보 유출 문제는 여전히 존재했습니다. AlphaFold가 예측한 구조 데이터에서 얻은 SaProt 모델의 손실이 줄어들었고, 실제 PDB 구조 데이터에서도 손실이 크게 줄어들어 예상했던 결과를 얻었습니다.
또한 SaProt은 여러 벤치마크에서도 좋은 성능을 보입니다.작년에는 권위 있는 목록인 ProteinGym에서도 1위를 차지했습니다. 동시에 우리는 10개 이상의 단백질(예: 다양한 효소 돌연변이 수정, 형광 단백질 수정 및 형광 예측 등)에 대한 SaProt/ColabSaProt의 커뮤니티 습식 실험 검증 결과도 수집했으며, 모두 우수한 성능을 보였습니다.

우리는 SaProt 모델이 꽤 좋다고 생각하지만,하지만 많은 생물학자들이 딥러닝에 대한 훈련을 받지 못했다는 점을 고려하면,약 10억 개의 매개변수가 있는 단백질 언어 모델을 독립적으로 미세 조정하는 것은 매우 어렵습니다.그래서 우리는 ColabSaprot + SaprotHub라는 대화형 인터페이스 플랫폼을 만들었습니다.

기존 모델 학습 프로세스(일반 파이프라인)에서는 사용자가 데이터 준비, 환경 구성, 코드 작성, 데이터 처리, 모델 학습, 모델 평가, 모델 추론 등 여러 단계를 거쳐야 합니다. ColabSaprot을 사용하면 전체 프로세스가 크게 간소화되었습니다. 사용자는 몇 개의 버튼만 클릭하면 환경 설치, 모델 학습, 예측 및 기타 작업을 완료할 수 있어 사용에 대한 임계값이 크게 줄어듭니다.
아래 그림과 같이 ColabSaprot은 크게 학습 모듈, 예측 모듈, 공유 모듈의 세 부분으로 구성되어 있습니다.

* 교육 모듈에서 사용자는 왼쪽에 있는 작업을 설명하고 데이터를 업로드한 후, 교육을 클릭하기만 하면 됩니다. 시스템은 최적의 하이퍼파라미터(배치 크기 등)를 자동으로 선택합니다.
* 예측 모듈에서는 사용자가 이전에 훈련된 모델을 직접 불러와서 예측을 할 수 있습니다. 다른 연구자들이 공유한 모델을 직접 입력하여 예측을 할 수도 있습니다.
* 공유 모듈은 결과를 공유하는 동시에 데이터 개인 정보를 보호하는 방법을 제공합니다. 많은 연구실에서 얻은 데이터는 매우 귀중하며, 일부 연구자는 후속 연구에 이 데이터를 사용해야 할 수도 있지만, 여전히 기존 모델을 공유하고 싶어합니다. ColabSaprot에서는 사용자는 모델 자체만 공유할 수 있습니다. 이 모델은 본질적으로 블랙박스이므로 다른 사람들은 원래 데이터를 얻을 수 없습니다.
모델을 공유할 때, 언어 모델은 일반적으로 크기가 크다는 점을 고려하면 10억 개의 매개변수가 있는 모델을 온라인에서 직접 공유하는 것은 거의 불가능합니다.따라서 우리는 성숙한 어댑터 메커니즘을 채택했습니다.사용자는 매우 적은 수의 매개변수만 공유하면 됩니다. 일반적으로 1% 또는 원래 모델 매개변수의 1/1,000에 불과합니다. 누구나 서로 어댑터를 공유하고 다른 사람의 어댑터를 로드하여 이를 기반으로 미세 조정이나 예측을 할 수 있습니다. 개선 사항이 좋으면 새로운 어댑터를 다시 공유할 수 있으며, 이를 통해 효율적인 커뮤니티 협력 메커니즘을 형성하고 연구 효율성을 크게 향상시킬 수 있습니다.

또한, 우리는 사용자 연구도 실시했습니다.우리는 머신 러닝이나 프로그래밍 지식이 없는 학생 12명을 초대하여 ColabSaprot 플랫폼을 시험해보게 했습니다. 우리는 그들에게 데이터를 제공하고 해야 할 작업을 알려주었고, 모델 훈련과 예측을 위해 ColabSaprot을 사용해야 했습니다. 마지막으로, AI 전문가의 성과와 결과를 비교한 결과, 비전문가 사용자도 ColabSaprot을 사용하는 전문가 수준에 가까운 수준에 도달할 수 있음을 발견했습니다.
또한, 단백질 언어 모델의 공유를 촉진하기 위해,우리는 또한 OPMC라는 커뮤니티를 설립했습니다.이 분야의 국내외 유명 학자들이 참여하여, 모든 사람이 모델을 공유하고 협력과 소통을 촉진하도록 독려했습니다.
OPMC 주소:

ProTrek 모델: 단백질 서열, 구조 및 기능 간의 대응 관계 찾기
두 번째로 소개할 작품은 단백질 언어 모델인 ProTrek입니다.
생물학 연구에서 많은 과학자들은 이런 필요에 직면합니다. 즉, 많은 단백질로 구성된 유전체를 가지고 있지만 각각의 구체적인 기능을 알지 못하는 것입니다.
ProTrek은 순서, 구조, 기능의 대조 학습을 위한 3중 언어 모델입니다.자연어 검색 인터페이스를 통해 사용자는 몇 초 만에 방대한 단백질 공간을 탐색하고 9가지 다양한 작업에 대한 모든 쌍별 서열, 구조 및 기능 조합 간의 관계를 검색할 수 있습니다. 즉, ProTrek을 사용하면 사용자는 단백질 서열만 입력하고 버튼 하나만 클릭하면 단백질 기능과 구조와 관련된 정보를 빠르게 찾을 수 있습니다. 마찬가지로, 기능을 기준으로 시퀀스 및 구조 정보를 찾을 수 있으며, 구조를 기준으로 시퀀스 및 기능 정보를 찾을 수도 있습니다. 또한, 시퀀스-시퀀스 및 구조-구조 클래스 검색도 지원합니다.
ProTrek 사용 주소:

저희 협력자들은 ProTrek 모델을 건조 및 습식 테스트에서 모두 평가했습니다.기존의 관련 방식과 비교했을 때 ProTrek은 상당한 성능 향상을 이루었습니다. 또한, 우리는 ProTrek을 사용하여 생성 모델을 훈련하기 위한 방대한 양의 데이터를 생성했는데, 이 역시 좋은 성과를 보였습니다.


우리는 트위터에서 다음을 발견했습니다.많은 사용자가 경쟁을 위해 ProTrek을 사용하기 시작했습니다.또한, 우리는 많은 긍정적인 피드백을 받았는데, 이는 이 모델의 실용성을 더욱 입증해주었습니다.

피날 모델: 텍스트 입력만으로 새로운 단백질 시퀀스 설계
우리의 또 다른 연구는 텍스트 설명을 기반으로 단백질을 설계하는 모델인 Pinal입니다.
기존의 단백질 설계는 일반적으로 생물물리학적 에너지 기능 템플릿 정보와 같은 복잡한 요소를 고려해야 합니다. 우리가 탐구하고자 하는 것은 대규모 언어 모델이 많은 작업에서 좋은 성과를 거두고 있으므로, 텍스트 기반 단백질 언어 모델을 설계하는 것이 가능한가 하는 것입니다. 이 모델에서 우리는 단백질의 정보를 간단히 기술하여 아미노산 서열을 설계하기만 하면 되는 것일까요?
피날 사용 주소:
http://www.denovo-pinal.com/
서류 주소:
https://www.biorxiv.org/content/10.1101/2024.08.01.606258v1

피날(160억 개의 매개변수)의 기본 원리를 간략하게 소개해드리겠습니다.처음에 우리의 아이디어는 텍스트를 입력하고 아미노산 서열을 출력하는 인코더-디코더 아키텍처를 사용하는 것이었습니다. 하지만 오랜 시간 노력했지만, 결과는 만족스럽지 않았습니다. 가장 큰 이유는 아미노산 서열 공간이 너무 넓어 예측이 어렵다는 것입니다.
따라서 우리는 먼저 단백질 구조를 설계하고, 그 구조와 텍스트적 단서를 바탕으로 아미노산 서열을 설계하는 방식으로 전략을 조정했습니다. 여기서 단백질 구조는 또한 이산화된 인코딩으로 표현됩니다. 결과는 구조와 결합된 설계 방법이 다음 토큰 예측 정확도 측면에서 아미노산 서열을 직접 예측하는 방법보다 훨씬 더 나은 성능을 보인다는 것을 보여줍니다(아래 그림 참조).

우리는 최근 협력사로부터 Pinal에 대한 습식 실험실 검증을 받았습니다.피날은 6개의 단백질 서열을 설계했는데, 그 중 3개가 발현되었고 2개의 서열은 해당 효소 촉매 활성을 갖는 것으로 검증되었습니다. 이 연구에서는 야생형보다 더 나은 단백질을 설계하는 데 중점을 두지 않았다는 점을 언급할 가치가 있습니다. 우리의 주요 목표는 텍스트에 근거하여 설계된 단백질이 해당 단백질 기능을 가지고 있는지 검증하는 것입니다.
에볼라 모델: 단백질의 분자 언어 해독
마지막으로 도입된 결과는 Evolla 모델입니다.이는 단백질의 분자 언어를 해독하도록 설계된, 가장 큰 오픈 소스 생물학적 모델 중 하나인 800억 개의 매개변수를 가진 단백질 언어 생성 모델입니다.
단백질 서열, 구조 및 사용자 쿼리 정보를 통합하여에볼라는 단백질 기능에 대한 정확한 통찰력을 제공합니다.사용자는 단백질의 서열과 구조만 입력하고, 단백질의 기본 기능이나 촉매 활성을 소개하는 등의 질문을 한 후, 간단히 버튼을 클릭하면 Evolla가 약 200~500단어의 자세한 설명을 생성해 줍니다.
에볼라 사용 주소:
http://www.chat-protein.com/
에볼라 논문 주소:
https://www.biorxiv.org/content/10.1101/2025.01.05.630192v2

Evolla 프로젝트에 필요한 훈련 데이터와 컴퓨팅 파워가 엄청나다는 점은 언급할 가치가 있습니다. 저희 박사과정 학생 두 명은 거의 1년 동안 훈련 데이터를 수집하고 처리하는 데만 시간을 보냈습니다. 결국, 우리는 수천억 개의 단어 토큰을 포함하는 합성 데이터를 통해 5억 개 이상의 고품질 단백질-텍스트 쌍을 생성했습니다. 이 모델은 효소 기능을 예측하는 데 매우 정확합니다.하지만 피할 수 없이 환상에 대한 몇 가지 문제가 있습니다.

팀 소개
웨스트레이크 대학의 위안 파지에 박사는 주로 전통적인 머신 러닝 및 학제간 주제와 관련된 응용 과학 연구에 참여하고 있으며, AI 빅 모델과 계산 생물학에 대한 탐구에 중점을 두고 있습니다. 그는 머신 러닝과 인공지능 분야의 최고 학회와 저널(예: NeurIPS, ICLR, SIGIR, WWW, TPAMI, Molecular Cell 등)에 40편 이상의 학술 논문을 발표했습니다. 팀 구성원과 프로젝트 참여자에 대한 자세한 내용은 논문을 참조하세요.
본 연구 그룹은 머신러닝과 AI+생물정보학 분야에서 장기 연구를 수행해 왔습니다. 박사과정 학생, 연구 조수, 박사후 연구원, 연구 그룹 연구원 자리에 지원해 보세요. 학생들은 인턴십을 위해 실험실을 방문할 수 있습니다. 관심 있는 분은 yuanfajie@westlake.edu.cn으로 이력서를 보내주시기 바랍니다.